論文の概要: The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2601.15165v2
- Date: Mon, 26 Jan 2026 08:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:06.906078
- Title: The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models
- Title(参考訳): フレキシビリティトラップ:なぜ任意順序が拡散言語モデルにおける推論可能性を制限するのか
- Authors: Zanlin Ni, Shenzhi Wang, Yang Yue, Tianyu Yu, Weilin Zhao, Yeguo Hua, Tianyi Chen, Jun Song, Cheng Yu, Bo Zheng, Gao Huang,
- Abstract要約: 拡散大言語モデル(dLLM)は、従来のLLMの厳格な左から右への制約を破る。
本稿では,dLLMsの推論境界を広げるよりも,任意の順序生成を現在の形式で狭くするという,直感に反する現実を明らかにする。
- 参考スコア(独自算出の注目度): 67.58848748317506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Large Language Models (dLLMs) break the rigid left-to-right constraint of traditional LLMs, enabling token generation in arbitrary orders. Intuitively, this flexibility implies a solution space that strictly supersets the fixed autoregressive trajectory, theoretically unlocking superior reasoning potential for general tasks like mathematics and coding. Consequently, numerous works have leveraged reinforcement learning (RL) to elicit the reasoning capability of dLLMs. In this paper, we reveal a counter-intuitive reality: arbitrary order generation, in its current form, narrows rather than expands the reasoning boundary of dLLMs. We find that dLLMs tend to exploit this order flexibility to bypass high-uncertainty tokens that are crucial for exploration, leading to a premature collapse of the solution space. This observation motivates a rethink of RL approaches for dLLMs, where considerable complexities, such as handling combinatorial trajectories and intractable likelihoods, are often devoted to preserving this flexibility. We demonstrate that effective reasoning can be better elicited by intentionally forgoing arbitrary order and applying standard Group Relative Policy Optimization (GRPO) instead. Our approach, JustGRPO, is minimalist yet surprisingly effective (e.g., 89.1% accuracy on GSM8K) while fully retaining the parallel decoding ability of dLLMs. Project page: https://nzl-thu.github.io/the-flexibility-trap
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、従来のLLMの厳格な左から右への制約を破り、任意の順序でトークン生成を可能にする。
直感的には、この柔軟性は固定された自己回帰軌道を厳密に置き換える解空間を意味し、理論上は数学やコーディングといった一般的なタスクに対する優れた推論ポテンシャルを解放する。
その結果、多くの研究が強化学習(RL)を活用してdLLMの推論能力を高めている。
本稿では,dLLMsの推論境界を広げるよりも,任意の順序生成を現在の形式で狭くするという,直感に反する現実を明らかにする。
dLLMsはこの順序の柔軟性を利用して、探索に欠かせない不確実なトークンを回避し、解空間を早期に崩壊させる傾向にある。
この観察はdLLMに対するRLアプローチの再考を動機付けており、組合せ軌道や難解な可能性を扱うようなかなりの複雑さが、しばしばこの柔軟性の保存に費やされている。
我々は、任意の順序を意図的に強制し、代わりに標準グループ相対政策最適化(GRPO)を適用することにより、効果的な推論がより優れていることを実証する。
我々のアプローチ JustGRPO は最小限だが驚くほど有効であり(例えば GSM8K では89.1% の精度)、dLLM の並列復号能力を完全に維持している。
プロジェクトページ:https://nzl-thu.github.io/the-flexibility-trap
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Enhancing Reasoning for Diffusion LLMs via Distribution Matching Policy Optimization [44.14678335188207]
拡散大言語モデル(dLLM)は自己回帰大言語モデル(AR-LLM)の代替として有望である
強化学習(RL)は、推論などの重要なタスクにおいて、AR-LLMと同等のパフォーマンスを達成するために、dLLMにとって重要なコンポーネントである。
本稿では,原理的かつ理論的に基礎付けられたRL微調整法である分散マッチングポリシー最適化(DMPO)を提案する。
論文 参考訳(メタデータ) (2025-10-09T13:59:50Z) - RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance [101.30279597148973]
プロセス報酬を明示せずにdLLMの推論軌道を導出するためのRFGを提案する。
RFGは、すべてのタスクとモデルタイプに一貫して大きな改善をもたらし、最大9.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-29T23:59:16Z) - AbstRaL: Augmenting LLMs' Reasoning by Reinforcing Abstract Thinking [38.8730008545358]
大規模言語モデル(LLM)は、しばしばその推論に頑健さを欠いている。
このアプローチは、推論の問題に重点を置いています。
この抽象化プロセスは、単に教師付き微調整よりも強化学習(RL)によりより良く得られる。
論文 参考訳(メタデータ) (2025-06-09T13:34:50Z) - SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs [48.28847964704554]
CoT(Chain-of-Thought)推論により、LLM(Large Language Models)は複雑な推論タスクを解くことができる。
LLMの変更を必要としない連続空間推論のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:52:29Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。