論文の概要: Context-level Language Modeling by Learning Predictive Context Embeddings
- arxiv url: http://arxiv.org/abs/2510.20280v2
- Date: Tue, 28 Oct 2025 07:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.861094
- Title: Context-level Language Modeling by Learning Predictive Context Embeddings
- Title(参考訳): 予測文脈埋め込み学習による文脈レベルの言語モデリング
- Authors: Beiya Dai, Yuliang Liu, Daozheng Xue, Qipeng Guo, Kai Chen, Xinbing Wang, Bowen Zhou, Zhouhan Lin,
- Abstract要約: textbfContextLMは、固有のtextbfnext-context予測目標で標準事前学習を強化するフレームワークである。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
GPT2およびPythiaモデルファミリーの実験では、1.5ドルBのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームのタスクパフォーマンスの両方で一貫した改善を提供することを示した。
- 参考スコア(独自算出の注目度): 79.00607069677393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Next-token prediction (NTP) is the cornerstone of modern large language models (LLMs) pretraining, driving their unprecedented capabilities in text generation, reasoning, and instruction following. However, the token-level prediction limits the model's capacity to capture higher-level semantic structures and long-range contextual relationships. To overcome this limitation, we introduce \textbf{ContextLM}, a framework that augments standard pretraining with an inherent \textbf{next-context prediction} objective. This mechanism trains the model to learn predictive representations of multi-token contexts, leveraging error signals derived from future token chunks. Crucially, ContextLM achieves this enhancement while remaining fully compatible with the standard autoregressive, token-by-token evaluation paradigm (e.g., perplexity). Extensive experiments on the GPT2 and Pythia model families, scaled up to $1.5$B parameters, show that ContextLM delivers consistent improvements in both perplexity and downstream task performance. Our analysis indicates that next-context prediction provides a scalable and efficient pathway to stronger language modeling, yielding better long-range coherence and more effective attention allocation with minimal computational overhead.
- Abstract(参考訳): 次世代予測(Next-token prediction、NTP)は、現代の大規模言語モデル(LLM)の事前訓練の基礎であり、テキスト生成、推論、命令処理における前例のない能力を推進している。
しかし、トークンレベルの予測は、より高いレベルのセマンティック構造と長距離コンテキスト関係をキャプチャする能力を制限する。
この制限を克服するために、固有の \textbf{next-context prediction} 目標で標準事前学習を強化するフレームワークである \textbf{ContextLM} を導入する。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
重要なことに、ContextLMは、標準的な自己回帰型トークン・バイ・トークン評価パラダイム(例えば、パープレキシティ)と完全に互換性を維持しながら、この拡張を実現している。
GPT2およびPythiaモデルファミリーに関する大規模な実験は、1.5ドルのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームタスクパフォーマンスの両方で一貫した改善を提供することを示している。
分析の結果,次のコンテキスト予測は,より強力な言語モデリングへのスケーラブルで効率的な経路を提供し,より優れた長距離コヒーレンスと計算オーバーヘッドを最小限に抑え,より効果的なアテンションアロケーションを実現することが示唆された。
関連論文リスト
- NormXLogit: The Head-on-Top Never Lies [15.215985417763472]
本稿では,個々の入力トークンの意義を評価するための新しい手法を提案する。
この方法は各トークンに関連付けられた入力および出力表現に基づいて動作する。
我々は、トークンの重要性と、その表現がモデルの最終的な予測に類似できる範囲との間に有意な関係を明らかにする。
論文 参考訳(メタデータ) (2024-11-25T10:12:27Z) - Markovian Transformers for Informative Language Modeling [1.172865818448696]
CoT(Chain-of-Thought)推論は、しばしば言語モデルの根底にある決定プロセスを忠実に反映しない。
推論オートエンコーダとして理解可能なマルコフ言語モデルフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T17:36:58Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Constructing Word-Context-Coupled Space Aligned with Associative
Knowledge Relations for Interpretable Language Modeling [0.0]
事前訓練された言語モデルにおけるディープニューラルネットワークのブラックボックス構造は、言語モデリングプロセスの解釈可能性を大幅に制限する。
解釈不能なニューラル表現と解釈不能な統計論理のアライメント処理を導入することで,ワードコンテキスト結合空間(W2CSpace)を提案する。
我々の言語モデルは,関連する最先端手法と比較して,優れた性能と信頼性の高い解釈能力を実現することができる。
論文 参考訳(メタデータ) (2023-05-19T09:26:02Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。