論文の概要: Thinking Out of Order: When Output Order Stops Reflecting Reasoning Order in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2601.22035v1
- Date: Thu, 29 Jan 2026 17:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.052297
- Title: Thinking Out of Order: When Output Order Stops Reflecting Reasoning Order in Diffusion Language Models
- Title(参考訳): 次数を考える:拡散言語モデルにおける推論順序を反映する出力順序が止まるとき
- Authors: Longxuan Yu, Yu Fu, Shaorong Zhang, Hui Liu, Mukund Varma T, Greg Ver Steeg, Yue Dong,
- Abstract要約: 仮設拡散言語モデル(MDLM)は、全てのトークンを並列に洗練し、出力構造から順序を分離する。
本稿では,拡散過程の早い段階で,MDLMが複雑なトークンよりも単純なトークンを安定化することにより,秩序の堅牢性を実現することを示す。
- 参考スコア(独自算出の注目度): 26.550350205533217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive (AR) language models enforce a fixed left-to-right generation order, creating a fundamental limitation when the required output structure conflicts with natural reasoning (e.g., producing answers before explanations due to presentation or schema constraints). In such cases, AR models must commit to answers before generating intermediate reasoning, and this rigid constraint forces premature commitment. Masked diffusion language models (MDLMs), which iteratively refine all tokens in parallel, offer a way to decouple computation order from output structure. We validate this capability on GSM8K, Math500, and ReasonOrderQA, a benchmark we introduce with controlled difficulty and order-level evaluation. When prompts request answers before reasoning, AR models exhibit large accuracy gaps compared to standard chain-of-thought ordering (up to 67% relative drop), while MDLMs remain stable ($\leq$14% relative drop), a property we term "order robustness". Using ReasonOrderQA, we present evidence that MDLMs achieve order robustness by stabilizing simpler tokens (e.g., reasoning steps) earlier in the diffusion process than complex ones (e.g., final answers), enabling reasoning tokens to stabilize before answer commitment. Finally, we identify failure conditions where this advantage weakens, outlining the limits required for order robustness.
- Abstract(参考訳): 自動回帰(AR)言語モデルは、固定された左から右への生成順序を強制し、要求される出力構造が自然な推論(例えば、プレゼンテーションやスキーマ制約による説明の前に回答を生成する)と矛盾する場合、基本的な制限を生成する。
このような場合、ARモデルは中間的推論を生成する前に答えにコミットしなければなりません。
マスク付き拡散言語モデル(MDLM)は、全てのトークンを並列に反復的に洗練し、計算順序を出力構造から切り離す方法を提供する。
我々は,GSM8K,Math500,ReasonOrderQAでこの能力を検証した。
推論の前に要求回答を促せば、ARモデルは標準チェーンの順序よりも大きな精度のギャップ(最大67%の相対的な低下)を示し、MDLMは安定している(\leq$14%の相対的な低下)。
ReasonOrderQA を用いて、MDLM は拡散過程の早い段階でより単純なトークン(例えば、推論ステップ)を安定化し、解答のコミットメントの前に推論トークンを安定化させることにより、秩序の堅牢性を達成する証拠を示す。
最後に、この利点が弱まる障害条件を特定し、秩序の堅牢性に必要な限界を概説する。
関連論文リスト
- The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models [67.58848748317506]
拡散大言語モデル(dLLM)は、従来のLLMの厳格な左から右への制約を破る。
本稿では,dLLMsの推論境界を広げるよりも,任意の順序生成を現在の形式で狭くするという,直感に反する現実を明らかにする。
論文 参考訳(メタデータ) (2026-01-21T16:41:58Z) - You Only Forward Once: An Efficient Compositional Judging Paradigm [17.06658600909927]
YOFOはテンプレート条件付きメソッドで、単一のフォワードパスですべての要求を判断する。
標準的なレコメンデーションデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-11-20T17:55:21Z) - No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models [42.158430350703505]
マスク付き拡散言語モデルは、ランダムにマスキングされたシーケンスにおける埋め込み位置を訓練する。
推論・アズ・インフィルとマルチトークンエントロピーデコーディングを提案する。
本研究は,MDLMが使用するトレーニングと計算によって,多くの新しい推論とポストトレーニング手法が解き放たれることを示す。
論文 参考訳(メタデータ) (2025-10-22T19:41:27Z) - Order Doesn't Matter, But Reasoning Does: Training LLMs with Order-Centric Augmentation [57.570754504160305]
本稿では,論理的推論における可換性に基づく順序中心のデータ拡張フレームワークを提案する。
秩序中心の拡張を利用することで、モデルはより柔軟で一般化された推論プロセスを開発することができる。
論文 参考訳(メタデータ) (2025-02-27T09:25:50Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Premise Order Matters in Reasoning with Large Language Models [57.18850969634412]
大規模言語モデル (LLM) は,前提の順序に驚くほど脆弱であることを示す。
前提順序が中間的推論ステップで要求されるコンテキストと一致した場合, LLM が最高の性能を達成することを観察する。
論文 参考訳(メタデータ) (2024-02-14T04:50:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。