論文の概要: How Transformers Learn to Plan via Multi-Token Prediction
- arxiv url: http://arxiv.org/abs/2604.11912v1
- Date: Mon, 13 Apr 2026 18:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.047668
- Title: How Transformers Learn to Plan via Multi-Token Prediction
- Title(参考訳): マルチトークン予測によるトランスフォーマーの計画学習
- Authors: Jianhao Huang, Zhanpeng Zhou, Renqiu Xia, Baharan Mirzasoleiman, Weijie Su, Wei Huang,
- Abstract要約: 次世代予測(NTP)の代替としてMulti-token Prediction(MTP)が登場した。
MTP は合成グラフパスフィニングタスクとより現実的な推論ベンチマークの両方において NTP を一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 33.974020982252206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While next-token prediction (NTP) has been the standard objective for training language models, it often struggles to capture global structure in reasoning tasks. Multi-token prediction (MTP) has recently emerged as a promising alternative, yet its underlying mechanisms remain poorly understood. In this paper, we study how MTP facilitates reasoning, with a focus on planning. Empirically, we show that MTP consistently outperforms NTP on both synthetic graph path-finding tasks and more realistic reasoning benchmarks, such as Countdown and boolean satisfiability problems. Theoretically, we analyze a simplified two-layer Transformer on a star graph task. We prove that MTP induces a two-stage reverse reasoning process: the model first attends to the end node and then reconstructs the path by tracing intermediate nodes backward. This behavior arises from a gradient decoupling property of MTP, which provides a cleaner training signal compared to NTP. Ultimately, our results highlight how multi-token objectives inherently bias optimization toward robust and interpretable reasoning circuits.
- Abstract(参考訳): 次世代予測(NTP)は言語モデルを訓練する標準的な目的であるが、推論タスクにおいてグローバルな構造を捉えるのに苦労することが多い。
MTP(Multi-token Prediction)は先進的な代替手段として最近登場したが、その基盤となるメカニズムはよく分かっていない。
本稿では,MPPが推論をどのように促進するかを,計画に焦点をあてて検討する。
実験により、MPPは、合成グラフパスフィニングタスクと、Countdownやbooleanの満足度問題などのより現実的な推論ベンチマークの両方において、NTPを一貫して上回ることを示した。
理論的には、スターグラフタスクで単純化された2層トランスを解析する。
MTPは2段階の逆推論過程を誘導し、まずモデルがエンドノードに到達し、次に中間ノードを後方にトレースすることで経路を再構築する。
この挙動は、NTPと比較してよりクリーンなトレーニング信号を提供するMPPの勾配分離特性から生じる。
最終的に、我々は、マルチトークン目的が本質的に、ロバストかつ解釈可能な推論回路に対するバイアス最適化にどのように依存しているかを強調した。
関連論文リスト
- Toward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement [12.77109338375446]
MTP(Multi-Token Prediction)は、より構造化された表現の学習において有望であることを示す。
そこで本研究では,LSE-MTPによる地中埋立状態軌跡の予測を固定する手法を提案する。
合成グラフと実世界のマンハッタンタクシーライドの実験は、LSE-MTPが離散トークンと連続状態表現のギャップを効果的に橋渡ししていることを示している。
論文 参考訳(メタデータ) (2026-04-07T17:54:22Z) - MTP-S2UT: Enhancing Speech-to-Speech Translation Quality with Multi-token Prediction [49.92201266421949]
音声から単位への翻訳(S2UT)モデルにマルチトークン予測(MTP)損失を導入する。
全てのMPP損失変種がS2UT翻訳の品質を一貫して改善していることが示される。
論文 参考訳(メタデータ) (2025-10-11T04:06:20Z) - FastMTP: Accelerating LLM Inference with Enhanced Multi-Token Prediction [11.691960175716163]
本稿では,MTPトレーニングを推論パターンに整合させることで,多段階のドラフト品質を向上させるFastMTPを提案する。
我々のアプローチは、自己蒸留データに位置共有重みを付加した単一のMPPヘッドを微調整することで、連続した将来のトークン間の依存関係をキャプチャすることができる。
7つの異なるベンチマークによる実験結果から、FastMTPは標準的な次のトークン予測と比較して平均2.03倍のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2025-09-16T07:36:26Z) - Pre-Training Curriculum for Multi-Token Prediction in Language Models [2.8071268036220003]
MTP(Multi-token Prediction)は、最近提案された言語モデルのための事前学習目標である。
本稿では,MTPトレーニングのためのカリキュラム学習戦略を提案し,前向きカリキュラムと逆カリキュラムの2つの変種を探索する。
論文 参考訳(メタデータ) (2025-05-28T18:19:18Z) - L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [95.53699156138435]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。
従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。
理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文 参考訳(メタデータ) (2025-05-23T05:59:46Z) - Beyond Chain-of-Thought, Effective Graph-of-Thought Reasoning in Language Models [74.40196814292426]
本稿では,人間の思考過程をチェーンとしてだけでなく,グラフとしてモデル化するグラフ・オブ・ソート(GoT)推論を提案する。
GoTは人間の思考の連続しない性質を捉え、思考プロセスのより現実的なモデリングを可能にします。
テキストのみの推論タスクとマルチモーダル推論タスクでGoTの性能を評価する。
論文 参考訳(メタデータ) (2023-05-26T02:15:09Z) - Learning Reasoning Strategies in End-to-End Differentiable Proving [50.9791149533921]
条件付き定理プローバーは勾配に基づく最適化により最適規則選択戦略を学習する。
条件付き定理プローサは拡張性があり、CLUTRRデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-07-13T16:22:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。