論文の概要: d2: Improved Techniques for Training Reasoning Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2509.21474v1
- Date: Thu, 25 Sep 2025 19:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.948579
- Title: d2: Improved Techniques for Training Reasoning Diffusion Language Models
- Title(参考訳): d2:拡散言語モデルの推論訓練技術の改善
- Authors: Guanghan Wang, Yair Schiff, Gilad Turok, Volodymyr Kuleshov,
- Abstract要約: マスク拡散言語モデル(DLM)に適した推論フレームワークであるd2を導入する。
我々のフレームワークの中心は、サンプリング軌道の確率を正確に推定するためにマスキングの特性に依存する新しいポリシー勾配アルゴリズムである。
実験的に、d2はRLのみを使用した従来の拡散推論フレームワークよりも大幅に改善される。
- 参考スコア(独自算出の注目度): 18.84834746600858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion language models (DLMs) have achieved competitive performance in text generation, improving their reasoning ability with reinforcement learning remains an active research area. Here, we introduce d2, a reasoning framework tailored for masked DLMs. Central to our framework is a new policy gradient algorithm that relies on properties of masking to accurately estimate the likelihoods of sampling trajectories. Our estimators trade off computation for approximation accuracy in an analytically tractable manner, and are particularly effective for DLMs that support any-order likelihood estimation. We characterize and study this property in popular DLMs and show that it is key for efficient diffusion-based reasoning. Empirically, d2 significantly improves over previous diffusion reasoning frameworks using only RL (without relying on supervised fine-tuning), and sets a new state-of-the-art performance for DLMs on logical reasoning tasks (Countdown and Sudoku) and math reasoning benchmarks (GSM8K and MATH500).
- Abstract(参考訳): 拡散言語モデル(DLM)はテキスト生成において競争力を発揮する一方で、強化学習による推論能力の向上は依然として活発な研究領域である。
本稿では,マスクDLMに適した推論フレームワークであるd2を紹介する。
我々のフレームワークの中心は、サンプリング軌道の確率を正確に推定するためにマスキングの特性に依存する新しいポリシー勾配アルゴリズムである。
我々の推定器は、解析的に抽出可能な方法で近似精度の計算をオフにし、非順序推定をサポートするDLMに対して特に有効である。
我々は,この特性をDLMにおいて特徴付け,研究し,効率的な拡散に基づく推論の鍵であることを示す。
実証的には、d2はRLのみを使用し(教師付き微調整に頼らず)、論理的推論タスク(CountdownとSudoku)と数学的推論ベンチマーク(GSM8KとMATH500)に基づいてDLMの最先端性能を新たに設定する。
関連論文リスト
- MDPO: Multi-Granularity Direct Preference Optimization for Mathematical Reasoning [0.0]
大規模言語モデル(LLM)の数学的推論を最適化するMDPO(Multi-Granularity Direct Preference Optimization)法を提案する。
我々はオープンソースのQwen2とLlama3で実験を行い、GSM8Kデータセットで1.7%と1.2%、MATHデータセットで2.3%と1.2%の改善を実現した。
また、MDPOトレーニングデータを構築するためのパイプラインも提供しています。
論文 参考訳(メタデータ) (2025-05-30T08:42:14Z) - Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models [32.424686185300374]
本稿では,拡散言語モデルの推論フレームワークであるDCoLT(Diffusion Chain of Lateral Thought)を紹介する。
DCoLTは、思考の中間段階において文法的正しさに厳格な規則を持たず、双方向で非線形な推論を可能にする。
DCoLT強化拡散言語モデル(DLM)は、SFTやRLで訓練された他のDLMよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-15T16:06:32Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。