論文の概要: Provable Long-Range Benefits of Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2512.07818v1
- Date: Mon, 08 Dec 2025 18:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:55.014311
- Title: Provable Long-Range Benefits of Next-Token Prediction
- Title(参考訳): 次世代予測の長期的メリット
- Authors: Xinyuan Cao, Santosh S. Vempala,
- Abstract要約: より長い範囲構造を学習する上で,次世代の予測は間違いなく強力であることを示す。
本稿では,実際に観察された長距離コヒーレンスについて解説する。
- 参考スコア(独自算出の注目度): 11.043470114967775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why do modern language models, trained to do well on next-word prediction, appear to generate coherent documents and capture long-range structure? Here we show that next-token prediction is provably powerful for learning longer-range structure, even with common neural network architectures. Specifically, we prove that optimizing next-token prediction over a Recurrent Neural Network (RNN) yields a model that closely approximates the training distribution: for held-out documents sampled from the training distribution, no algorithm of bounded description length limited to examining the next $k$ tokens, for any $k$, can distinguish between $k$ consecutive tokens of such documents and $k$ tokens generated by the learned language model following the same prefix. We provide polynomial bounds (in $k$, independent of the document length) on the model size needed to achieve such $k$-token indistinguishability, offering a complexity-theoretic explanation for the long-range coherence observed in practice.
- Abstract(参考訳): 次世代の単語予測に順応するように訓練された現代言語モデルは、なぜ一貫性のあるドキュメントを生成し、長距離構造をキャプチャするように見えるのか?
ここでは、一般的なニューラルネットワークアーキテクチャでさえも、より長い範囲の構造を学ぶのに、次世代の予測は間違いなく強力であることを示す。
具体的には、リカレントニューラルネットワーク(RNN)上での次トーケン予測を最適化すると、トレーニング分布を近似したモデルが得られることを証明している:トレーニング分布からサンプリングされた保持文書に対して、次の$k$トークンを調べることに限定された有界記述長のアルゴリズムは、任意の$k$に対して、そのような文書の連続トークンと、学習言語モデルが同じプレフィックスに従って生成した$k$トークンとを区別できない。
我々は、そのような$k$-tokenの不明瞭性を達成するために必要なモデルサイズの多項式境界(文書長に依存しない$k$)を提供し、実際観察される長距離コヒーレンスに対する複雑性理論的な説明を提供する。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Context-level Language Modeling by Learning Predictive Context Embeddings [79.00607069677393]
textbfContextLMは、固有のtextbfnext-context予測目標で標準事前学習を強化するフレームワークである。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
GPT2およびPythiaモデルファミリーの実験では、1.5ドルBのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームのタスクパフォーマンスの両方で一貫した改善を提供することを示した。
論文 参考訳(メタデータ) (2025-10-23T07:09:45Z) - How Reinforcement Learning After Next-Token Prediction Facilitates Learning [36.98696363889831]
本研究では,1つのタスクをコードする短い鎖と長い鎖の配列の混合分布から学習する。
次点予測後の強化学習が自己回帰変換器の一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2025-10-13T15:04:00Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Efficient Training of Language Models with Compact and Consistent Next Token Distributions [23.312920633391837]
我々は, コーパスを崩壊した$n$-gramの分布で事前集約することで, より良いモデルをより高速に訓練できることを示す。
我々の近似は、より大きなデータセットやモデルへのゲインのスケーラビリティを促進する。
論文 参考訳(メタデータ) (2024-07-03T05:40:41Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Auto-Regressive Next-Token Predictors are Universal Learners [17.416520406390415]
線形次トーケン予測器のような単純なモデルでさえ、チューリングマシンによって効率的に計算される任意の関数を近似することができることを示す。
また、線形ネットワークや浅層多層パーセプトロン(MLP)のような単純な次世代予測器が、テキスト生成や算術タスクにおいて非自明な性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-13T14:15:03Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。