論文の概要: Reasoning with Latent Tokens in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.03769v1
- Date: Tue, 03 Feb 2026 17:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.604739
- Title: Reasoning with Latent Tokens in Diffusion Language Models
- Title(参考訳): 拡散言語モデルにおける潜在トークンの推論
- Authors: Andre He, Sean Welleck, Daniel Fried,
- Abstract要約: 拡散モデルは、現在のステップではデコードされないものを含む、未知のトークンの分布を共同で予測するように訓練されていることを示す。
補助的マルチトークン予測により,潜在トークンを自己回帰モデルに導入できることを実証する。
以上の結果から,潜伏トークンは自然に拡散する一方で,グローバルコヒーレンスやルックアヘッドを必要とするタスクの性能向上のための一般的なメカニズムを示すことが示唆された。
- 参考スコア(独自算出の注目度): 47.27454676014286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion models have recently become competitive with autoregressive models for language modeling, even outperforming them on reasoning tasks requiring planning and global coherence, but they require more computation at inference time. We trace this trade-off to a key mechanism: diffusion models are trained to jointly predict a distribution over all unknown tokens, including those that will not actually be decoded in the current step. Ablating this joint prediction yields faster inference but degrades performance, revealing that accurate prediction at the decoded position relies on joint reasoning about the distribution of undecoded tokens. We interpret these as latent tokens and introduce a method for modulating their number, demonstrating empirically that this enables a smooth tradeoff between inference speed and sample quality. Furthermore, we demonstrate that latent tokens can be introduced into autoregressive models through an auxiliary multi-token prediction objective, yielding substantial improvements on the same reasoning tasks where they have traditionally struggled. Our results suggest that latent tokens, while arising naturally in diffusion, represent a general mechanism for improving performance on tasks requiring global coherence or lookahead.
- Abstract(参考訳): 離散拡散モデルは最近、言語モデリングの自己回帰モデルと競合し、計画やグローバルコヒーレンスを必要とするタスクの推論よりも優れているが、推論時により多くの計算を必要とする。
拡散モデルは、現在のステップで実際にデコードされないものを含む、未知のトークンの分布を共同で予測するように訓練される。
この共同予測はより高速な推論をもたらすが、性能は低下し、復号された位置での正確な予測は未復号されたトークンの分布に関する共同推論に依存することが明らかになった。
我々はこれらを潜在トークンとして解釈し、それらの数を調整する方法を導入し、推論速度とサンプル品質のスムーズなトレードオフを可能にすることを実証的に実証した。
さらに, 遅延トークンは補助的マルチトークン予測目標を通じて自己回帰モデルに導入可能であることを示す。
以上の結果から,潜伏トークンは自然に拡散する一方で,グローバルコヒーレンスやルックアヘッドを必要とするタスクの性能向上のための一般的なメカニズムを示すことが示唆された。
関連論文リスト
- LaDiR: Latent Diffusion Enhances LLMs for Text Reasoning [30.62691333490551]
大規模言語モデル(LLM)は、思考の連鎖生成を通じて推論能力を示す。
連続潜在表現の表現性を統一する新しい推論フレームワークであるLaDiRを提案する。
LaDiRは、既存の自己回帰的、拡散的、潜伏的推論方法よりも、精度、多様性、解釈性を一貫して改善する。
論文 参考訳(メタデータ) (2025-10-06T08:15:03Z) - A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective [8.15094483029656]
拡散モデルは並列トークンサンプリングを可能にし、より高速な生成と左から右への生成制約を排除する。
我々は情報理論の観点から拡散言語モデルの収束保証を開発する。
これらの結果は拡散言語モデルの実用性に関する新たな理論的洞察を与える。
論文 参考訳(メタデータ) (2025-05-27T16:24:20Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Non-autoregressive Sequence-to-Sequence Vision-Language Models [59.445765313094434]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文 参考訳(メタデータ) (2024-03-04T17:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。