論文の概要: Next-Latent Prediction Transformers Learn Compact World Models
- arxiv url: http://arxiv.org/abs/2511.05963v1
- Date: Sat, 08 Nov 2025 10:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.68247
- Title: Next-Latent Prediction Transformers Learn Compact World Models
- Title(参考訳): 次世代予測変換器は、コンパクトな世界モデルを学ぶ
- Authors: Jayden Teoh, Manan Tomar, Kwangjun Ahn, Edward S. Hu, Pratyusha Sharma, Riashat Islam, Alex Lamb, John Langford,
- Abstract要約: Next-Latent Predictionは、潜在空間における自己教師付き予測によって、標準的な次世代トレーニングを拡張する。
NextLatは、ダウンストリームの正確性、表現圧縮、ルックアヘッド計画における標準的な次世代トレーニングよりも大幅に向上している。
- 参考スコア(独自算出の注目度): 33.499164089236444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers replace recurrence with a memory that grows with sequence length and self-attention that enables ad-hoc look ups over past tokens. Consequently, they lack an inherent incentive to compress history into compact latent states with consistent transition rules. This often leads to learning solutions that generalize poorly. We introduce Next-Latent Prediction (NextLat), which extends standard next-token training with self-supervised predictions in the latent space. Specifically, NextLat trains a transformer to learn latent representations that are predictive of its next latent state given the next output token. Theoretically, we show that these latents provably converge to belief states, compressed information of the history necessary to predict the future. This simple auxiliary objective also injects a recurrent inductive bias into transformers, while leaving their architecture, parallel training, and inference unchanged. NextLat effectively encourages the transformer to form compact internal world models with its own belief states and transition dynamics -- a crucial property absent in standard next-token prediction transformers. Empirically, across benchmarks targeting core sequence modeling competencies -- world modeling, reasoning, planning, and language modeling -- NextLat demonstrates significant gains over standard next-token training in downstream accuracy, representation compression, and lookahead planning. NextLat stands as a simple and efficient paradigm for shaping transformer representations toward stronger generalization.
- Abstract(参考訳): トランスフォーマーは、過去のトークンに対するアドホックなルックアップを可能にするシーケンス長と自己アテンションで成長するメモリに置き換える。
その結果、それらは連続的な遷移規則を持つコンパクトな潜在状態に歴史を圧縮する本質的なインセンティブを欠いている。
これはしばしば、一般化が不十分な学習ソリューションにつながります。
我々は,次世代予測(NextLat)を導入し,潜在空間における自己教師付き予測を用いて,標準的な次世代のトレーニングを拡張した。
具体的には、NextLatは変換器をトレーニングし、次の出力トークンが与えられた次の潜時状態を予測する潜時表現を学習する。
理論的には、これらの潜伏者は信念状態に確実に収束し、未来を予測するのに必要な歴史情報を圧縮した。
この単純な補助目的は、アーキテクチャ、並列トレーニング、推論が変わらないまま、繰り返し帰納的バイアスをトランスフォーマーに注入する。
NextLatは、トランスフォーマーが独自の信念状態とトランジッションダイナミクスを持つコンパクトな内部世界モデルを形成することを効果的に促す。
実証的には、コアシーケンスモデリング能力 – ワールドモデリング、推論、計画、言語モデリング – をターゲットにしたベンチマークを通じて、NextLatは、ダウンストリームの精度、表現圧縮、ルックアヘッドプランニングにおいて、標準的な次世代トレーニングよりも大幅に向上したことを示している。
NextLatは、より強力な一般化に向けて変換器表現を形作るための単純で効率的なパラダイムである。
関連論文リスト
- Bottlenecked Transformers: Periodic KV Cache Consolidation for Generalised Reasoning [16.35681450323654]
トランスフォーマーLSMは推論時間計算でスケールする強力な推論能力を示すことが示されている。
KVキャッシュの書き直しによるメモリ(re)統合が、推論の改善に有効である理由を理論的に正当化する。
我々のモデルでは、バニラトランスフォーマーと停止する拡張ベースラインに対して一貫したパフォーマンス向上が見られ、選択されたタスク/バックボーンに対して最大6.6ppのゲインが得られる。
論文 参考訳(メタデータ) (2025-05-22T17:33:49Z) - Curse of Attention: A Kernel-Based Perspective for Why Transformers Fail to Generalize on Time Series Forecasting and Beyond [17.002793355495136]
TSFタスクにおける変圧器の非効率性に関する最初の理論的説明を提案する。
トレーニングアテンションネットワークにおけるbf非対称学習のメカニズムを考察する。
論文 参考訳(メタデータ) (2024-12-08T20:29:06Z) - The Belief State Transformer [51.840276930729516]
ビリーフ状態変換器(Belief State Transformer)は、接頭辞と接尾辞の両方を入力として取る次世代の予測器である。
従来のフォワードオンリーのトランスフォーマーが抱える課題を効果的に解決する。
実証的な説明は、標準トランスフォーマーが不足する難しいシナリオでは、モデルのそれぞれのコンポーネントが不可欠であることを示している。
論文 参考訳(メタデータ) (2024-10-30T23:26:06Z) - Local to Global: Learning Dynamics and Effect of Initialization for Transformers [20.02103237675619]
我々は一階マルコフ連鎖と単層変圧器に焦点をあてる。
我々は,次世代の予測損失に基づいてトレーニングしたトランスフォーマーパラメータが,グローバルあるいはローカルのミニマに収束可能であることを証明した。
論文 参考訳(メタデータ) (2024-06-05T08:57:41Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - What Makes for Good Tokenizers in Vision Transformer? [62.44987486771936]
変圧器は自己注意を用いて対関係を抽出することができる。
優れたトークンライザとなるものは、コンピュータビジョンではよく理解されていない。
Tokens (MoTo) を横断する変調は、正規化によるトークン間モデリング機能を備えている。
TokenPropの正規化対象は、標準トレーニング体制で採用されている。
論文 参考訳(メタデータ) (2022-12-21T15:51:43Z) - Addressing Some Limitations of Transformers with Feedback Memory [51.94640029417114]
トランスフォーマーは、フィードフォワードネットワークであるにもかかわらず、シーケンシャルな自動回帰タスクにうまく適用されている。
本稿では、過去のすべての表現を将来のすべての表現に公開する、フィードバックトランスフォーマーアーキテクチャを提案する。
言語モデリング、機械翻訳、強化学習の様々なベンチマークにおいて、表現能力の増大は、同等のトランスフォーマーよりもはるかに強力なパフォーマンスを持つ、小さくて浅いモデルを生成することができることを実証する。
論文 参考訳(メタデータ) (2020-02-21T16:37:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。