論文の概要: Thinking into the Future: Latent Lookahead Training for Transformers
- arxiv url: http://arxiv.org/abs/2603.20219v1
- Date: Tue, 03 Mar 2026 17:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.902499
- Title: Thinking into the Future: Latent Lookahead Training for Transformers
- Title(参考訳): 未来を考える:変圧器のラテンダヘッドトレーニング
- Authors: Lorenzo Noci, Gregor Bachmann, Seyed-Mohsen Moosavi-Dezfooli, Moin Nabi,
- Abstract要約: 次トーケン予測で訓練された自己回帰言語モデルは、一度に1つの離散トークンをサンプリングすることでテキストを生成する。
我々は、モデルが生成前に"考える"ことができるトレーニング戦略である潜在ルックアヘッドを紹介します。
本研究では,潜在ルックアヘッドが,迷路解決やスドク,ProsQAといった計画課題において,自己回帰的,非自己回帰的ベースラインを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 34.73973224120233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive language models trained with next-token prediction generate text by sampling one discrete token at a time. Although very scalable, this objective forces the model to commit at every step, preventing it from exploring or reflecting upon multiple plausible continuations. Furthermore, the compute allocation across tokens is uniform; every token is formed based on a single forward-pass, potentially limiting the model's expressiveness in cases where difficult tokens require inherently more compute. Towards addressing these limitations, we introduce latent lookahead, a training strategy that enables models to "think" before generating: at selected positions in the sequence, before committing to the next token, the model performs a multi-step lookahead in latent space. More precisely, instead of sampling future tokens, we leverage the network's latent space by recursively feeding its hidden states back into the context for $τ$ steps, investing more compute on predicting that token. This produces $τ$ latent predictions that are supervised against the next $τ$ ground-truth tokens, encouraging the model to "lookahead" and refine its prediction. We show that latent lookahead substantially outperforms both autoregressive and non-autoregressive baselines on planning tasks such as maze solving, Sudoku, and ProsQA, where foresight is essential.
- Abstract(参考訳): 次トーケン予測で訓練された自己回帰言語モデルは、一度に1つの離散トークンをサンプリングすることでテキストを生成する。
非常にスケーラブルだが、この目的はモデルをあらゆるステップでコミットさせ、複数のもっともらしい継続を探索したり、反映したりするのを防ぐ。
さらに、トークン間の計算割り当ては均一であり、すべてのトークンは単一のフォワードパスに基づいて形成され、難解なトークンが本質的により多くの計算を必要とする場合、モデルの表現性を制限する可能性がある。
これらの制限に対処するために、我々は、列内の選択された位置において、次のトークンにコミットする前に、潜在空間で多段階のルックアヘッドを実行する、モデルを生成前に"考える"ことができるトレーニング戦略であるLatent Lookaheadを導入する。
より正確には、将来のトークンをサンプリングする代わりに、隠れた状態をコンテキストに再帰的にフィードバックし、そのトークンを予測するためにより多くの計算に投資することで、ネットワークの潜伏空間を活用します。
これにより、次の$τ$グランドトルーストークンに対して教師される遅延予測が$τ$で作成され、モデルが"注目"し、予測を洗練するように促される。
本研究は, 目視が不可欠である迷路解決, スドク, ProsQAなどの計画課題において, 自己回帰ベースラインと非自己回帰ベースラインの両方を著しく上回っていることを示す。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space [44.24277388571869]
我々は、新しい事前学習手法を提案する:潜在思考を用いた言語モデル(PonderLM-2)
我々のアプローチでは、まず言語モデル(LM)を事前訓練して、現在位置の最後の隠れ状態である中間潜在思考を生成し、その後、実際のトークンを予測するために入力として使用される。
実験により、同一の推論コストでトークンごとに1つの追加の潜在的思考を生成するLMが、パラメータの2倍の標準モデルより優れていることが示された。
論文 参考訳(メタデータ) (2025-09-27T08:38:08Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。