論文の概要: Toward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement
- arxiv url: http://arxiv.org/abs/2604.06155v1
- Date: Tue, 07 Apr 2026 17:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.982749
- Title: Toward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement
- Title(参考訳): マルチトークン予測と潜在セマンティックエンハンスメントを用いた一貫性世界モデルに向けて
- Authors: Qimin Zhong, Hao Liao, Haiming Qin, Mingyang Zhou, Rui Mao, Wei Chen, Naipeng Chao,
- Abstract要約: MTP(Multi-Token Prediction)は、より構造化された表現の学習において有望であることを示す。
そこで本研究では,LSE-MTPによる地中埋立状態軌跡の予測を固定する手法を提案する。
合成グラフと実世界のマンハッタンタクシーライドの実験は、LSE-MTPが離散トークンと連続状態表現のギャップを効果的に橋渡ししていることを示している。
- 参考スコア(独自算出の注目度): 12.77109338375446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whether Large Language Models (LLMs) develop coherent internal world models remains a core debate. While conventional Next-Token Prediction (NTP) focuses on one-step-ahead supervision, Multi-Token Prediction (MTP) has shown promise in learning more structured representations. In this work, we provide a theoretical perspective analyzing the gradient inductive bias of MTP, supported by empirical evidence, showing that MTP promotes the convergence toward internal belief states by inducing representational contractivity via gradient coupling. However, we reveal that standard MTP often suffers from structural hallucinations, where discrete token supervision encourages illegal shortcuts in latent space that violate environmental constraints. To address this, we propose a novel method Latent Semantic Enhancement MTP (LSE-MTP), which anchors predictions to ground-truth hidden state trajectories. Experiments on synthetic graphs and real-world Manhattan Taxi Ride show that LSE-MTP effectively bridges the gap between discrete tokens and continuous state representations, enhancing representation alignment, reducing structural hallucinations, and improving robustness to perturbations.
- Abstract(参考訳): LLM(Large Language Models)がコヒーレントな内部世界モデルを開発するかどうかはいまだに議論の中心である。
従来のNext-Token Prediction(NTP)は1段階の監視に重点を置いているが、MTP(Multi-Token Prediction)はより構造化された表現の学習において有望であることを示している。
本研究では, MTPの勾配帰納バイアスを実証的証拠によって解析し, MTPが勾配結合による表現的収縮率を誘導することにより, 内部の信念状態への収束を促進することを示す。
しかし, 標準的なMPPは, 環境制約に違反する潜在空間において, 離散トークンの監督が違法なショートカットを奨励する構造幻覚に悩まされることが多い。
そこで本研究では,LSE-MTP(Latent Semantic Enhancement MTP)を提案する。
合成グラフと実世界のマンハッタンタクシー乗り込み実験により、LSE-MTPは離散トークンと連続状態表現のギャップを効果的に橋渡しし、表現アライメントの強化、構造的幻覚の低減、摂動に対する堅牢性の向上が示されている。
関連論文リスト
- OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning [51.33849811496781]
大規模言語モデル (LLM) は例外的な論理的推論能力を示しているが、部分微分方程式 (PDE) による連続力学としばしば競合する。
OMNIFLOWは, 領域固有のパラメータ更新を必要とせず, 基本物理法則で凍結LDMを基底として設計したマルチモーダルシンボリックアーキテクチャである。
我々は, 微視的乱流, 理論的ナビエ・ストークス, マクロ的世界天気予報のベンチマークでこれを評価した。
論文 参考訳(メタデータ) (2026-03-16T18:29:01Z) - Thinking in Uncertainty: Mitigating Hallucinations in MLRMs with Latent Entropy-Aware Decoding [38.5840117402958]
トークン確率分布から適切な文脈推論情報を直接抽出できることを論じる。
本稿では,効率的なプラグアンドプレイデコーディング戦略であるLatent Entropy-Aware Decodingを提案する。
このモデルは高エントロピー状態下での確率重み付き連続埋め込みを採用し、エントロピーが減少するにつれて離散トークン埋め込みに遷移する。
論文 参考訳(メタデータ) (2026-03-09T12:47:54Z) - No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs [65.783709850324]
この研究は、Chain-of-Thought (CoT): Large Language Models (LLMs)の力学に関する先行的な補完的な観察に由来する。
LLMは、CoTの出現前の後続の推論の遅延計画を示すため、明示的なCoTの重要性は低下する。
各種タスク領域にまたがる隠れ状態に適用し,LLMの潜在計画強度について検討する。
論文 参考訳(メタデータ) (2026-02-02T13:46:56Z) - Idea-Gated Transformers: Enforcing Semantic Coherence via Differentiable Vocabulary Pruning [0.40611352512781856]
本稿では,セマンティックプランニングと構文生成を分離した新しいアーキテクチャであるIdean-Gated Transformerを紹介する。
本稿では,意味的に無関係なトークンを抑え,検索空間をリアルタイムで効果的に刈り取る,微分可能なゲーティング機構を提案する。
論文 参考訳(メタデータ) (2025-12-03T01:17:07Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - On multi-token prediction for efficient LLM inference [0.36681882674260474]
まず, 中間トークン確率に対する数値境界化により, MTP の能力を本質的に有することを示す。
次に,凍ったLCMにMPPヘッドを組み込むことの課題について検討し,その隠蔽層がNTPに強く特化していることを見出した。
論文 参考訳(メタデータ) (2025-02-13T15:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。