論文の概要: Understanding and Enhancing the Planning Capability of Language Models via Multi-Token Prediction
- arxiv url: http://arxiv.org/abs/2509.23186v1
- Date: Sat, 27 Sep 2025 08:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.092476
- Title: Understanding and Enhancing the Planning Capability of Language Models via Multi-Token Prediction
- Title(参考訳): マルチトークン予測による言語モデルの計画能力の理解と強化
- Authors: Qimin Zhong, Hao Liao, Siwei Wang, Mingyang Zhou, Xiaoqun Wu, Rui Mao, Wei Chen,
- Abstract要約: 理論的には、Transformerアーキテクチャを用いてMulti-Token Prediction(MTP)パラダイムを解析する。
本研究では,Next-Token Injection (NTI) と Transformer-based transfer layer (Transformer-based transfer layer) の2つの手法を提案する。
合成グラフとBlocksworld計画ベンチマークの両方に関する実験により、理論的な結果が検証され、改善によってモデルの経路計画能力が大幅に向上することが実証された。
- 参考スコア(独自算出の注目度): 17.631683772383017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved impressive performance across diverse tasks but continue to struggle with learning transitive relations, a cornerstone for complex planning. To address this issue, we investigate the Multi-Token Prediction (MTP) paradigm and its impact to transitive relation learning. We theoretically analyze the MTP paradigm using a Transformer architecture composed of a shared output head and a transfer layer. Our analysis reveals that the transfer layer gradually learns the multi-step adjacency information, which in turn enables the backbone model to capture unobserved transitive reachability relations beyond those directly present in the training data, albeit with some inevitable noise in adjacency estimation. Building on this foundation, we propose two strategies to enhance the transfer layer and overall learning quality: Next-Token Injection (NTI) and a Transformer-based transfer layer. Our experiments on both synthetic graphs and the Blocksworld planning benchmark validate our theoretical findings and demonstrate that the improvements significantly enhance the model's path-planning capability. These findings deepen our understanding of how Transformers with MTP learn in complex planning tasks, and provide practical strategies to overcome the transitivity bottleneck, paving the way toward structurally aware and general-purpose planning models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにわたって素晴らしいパフォーマンスを達成していますが、複雑な計画の基礎である推移的関係の学習に苦戦し続けています。
この問題に対処するために,MTP(Multi-Token Prediction)パラダイムとその推移的関係学習への影響について検討する。
我々は,共有出力ヘッドと転送層からなるTransformerアーキテクチャを用いて,MPPパラダイムを理論的に解析する。
解析の結果, 移動層は, 多段階の隣接情報を徐々に学習し, バックボーンモデルにより, 直接トレーニングデータに現れる以上の非観測的到達可能性関係を捉えることができることがわかった。
本研究は,Next-Token Injection (NTI) とTransformer-based transfer layer (Transformer-based transfer layer) の2つの手法を提案する。
合成グラフとBlocksworld計画ベンチマークの両方に関する実験により、理論的な結果が検証され、改善によってモデルの経路計画能力が大幅に向上することが実証された。
これらの知見は,MPPを用いたトランスフォーマーが複雑な計画課題においてどのように学習するかを深く理解し,トランジシティのボトルネックを克服し,構造的意識と汎用的な計画モデルへの道を開くための実践的戦略を提供する。
関連論文リスト
- Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - A representational framework for learning and encoding structurally enriched trajectories in complex agent environments [1.904851064759821]
人工知能エージェントが最適な決定を行い、それらを異なるドメインやタスクに一般化する能力は、複雑なシナリオで妥協される。
この問題に対処する方法の1つは、世界の効率的な表現を学習することと、エージェントのアクションがそれらにどのように影響するかに焦点を当てている。
本稿では,エージェントのオントロジーを強化し,タスク実行のより微妙なビューを提供するために,トラジェクトリの伝統化を拡張することを提案する。
論文 参考訳(メタデータ) (2025-03-17T14:04:27Z) - On Adversarial Robustness of Language Models in Transfer Learning [13.363850350446869]
転送学習は、標準的なパフォーマンス指標を改善する一方で、敵攻撃に対する脆弱性の増加につながることがよく示される。
以上の結果から, モデルサイズ, アーキテクチャ, 適応手法の複雑な相互作用が示唆された。
論文 参考訳(メタデータ) (2024-12-29T15:55:35Z) - ALPINE: Unveiling the Planning Capability of Autoregressive Learning in Language Models [48.559185522099625]
計画は人間の知性と現代大言語モデル(LLM)の両方の重要な要素である
本稿では,トランスフォーマーを用いたLLMにおける次の単語予測機構による計画能力の出現について検討する。
論文 参考訳(メタデータ) (2024-05-15T09:59:37Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。