論文の概要: Enhancing Reasoning for Diffusion LLMs via Distribution Matching Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.08233v1
- Date: Thu, 09 Oct 2025 13:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.108032
- Title: Enhancing Reasoning for Diffusion LLMs via Distribution Matching Policy Optimization
- Title(参考訳): 分散マッチングポリシ最適化による拡散LDMの推論強化
- Authors: Yuchen Zhu, Wei Guo, Jaemoo Choi, Petr Molodyk, Bo Yuan, Molei Tao, Yongxin Chen,
- Abstract要約: 拡散大言語モデル(dLLM)は自己回帰大言語モデル(AR-LLM)の代替として有望である
強化学習(RL)は、推論などの重要なタスクにおいて、AR-LLMと同等のパフォーマンスを達成するために、dLLMにとって重要なコンポーネントである。
本稿では,原理的かつ理論的に基礎付けられたRL微調整法である分散マッチングポリシー最適化(DMPO)を提案する。
- 参考スコア(独自算出の注目度): 44.14678335188207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) are promising alternatives to autoregressive large language models (AR-LLMs), as they potentially allow higher inference throughput. Reinforcement learning (RL) is a crucial component for dLLMs to achieve comparable performance with AR-LLMs on important tasks, such as reasoning. However, RL algorithms that are well-suited for dLLMs' unique characteristics have yet to be developed. This paper proposes Distribution Matching Policy Optimization (DMPO), a principled and theoretically grounded RL fine-tuning method specifically designed to enhance the reasoning capabilities of dLLMs by matching the dLLM policy distribution to the optimal, reward-tilted one through cross-entropy optimization. We identify a key challenge in the implementation with a small training batch size and propose several effective solutions through a novel weight baseline subtraction technique. DMPO exhibits superior performance on multiple reasoning benchmarks without supervised fine-tuning, with an accuracy improvement of up to $42.9\%$ over previously SOTA baselines and $55.8\%$ over the base model, underscoring the effectiveness of the distribution matching framework. Our code is available at https://github.com/yuchen-zhu-zyc/DMPO.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、高い推論スループットを可能にする可能性があるため、自己回帰大言語モデル(AR-LLM)の代替として有望である。
強化学習(RL)は、推論などの重要なタスクにおいて、AR-LLMと同等のパフォーマンスを達成するために、dLLMにとって重要なコンポーネントである。
しかし、dLLMsの特性によく適合するRLアルゴリズムはまだ開発されていない。
本稿では,dLLMポリシー分布を最適,報酬型,クロスエントロピー最適化に整合させることにより,dLLMの推論能力を高めるために,原理的かつ理論的に基礎付けられたRL微調整法である分散マッチングポリシー最適化(DMPO)を提案する。
訓練バッチサイズを小さくした実装における重要な課題を特定し、新しい重み付けベースライン減算手法により、いくつかの効果的な解を提案する。
DMPOは、教師付き微調整なしで複数の推論ベンチマークにおいて優れた性能を示し、精度は以前のSOTAベースラインよりも42.9\%、ベースモデルより55.8\%まで向上し、分散マッチングフレームワークの有効性を裏付けている。
私たちのコードはhttps://github.com/yuchen-zhu-zyc/DMPO.comで公開されています。
関連論文リスト
- Principled and Tractable RL for Reasoning with Diffusion Language Models [0.0]
拡散大言語モデル(dLLM)は、複数のトークンを並列に予測し、反復的アンマスキングによってテキストを生成するように訓練されている。
最近の研究は、DLLMを8Bスケールでの自己回帰LDMと同等に事前訓練することに成功しているが、現代のポストトレーニング技術の恩恵を受けていない。
本稿では,dLLMに特化して設計されたオンラインRLアルゴリズムであるAGRPO(Amortized Group Relative Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-10-05T03:53:16Z) - DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning [37.20873499361773]
マスク付き拡散大言語モデル (dLLM) を学習し, より優れた推論を行うための統一フレームワークを提案する。
我々はまず,既存の基本方針を,真のdLLM政策の近似としてはるかに難易度の高い,政治外RLによるサロゲート政策の訓練により統一する。
RLでは、各プロンプトに対して推論閾値を適応的に割り当てることによって、dLLMの自然なマルチトークン予測能力をインセンティブ化する。
論文 参考訳(メタデータ) (2025-10-02T16:57:24Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning [31.531278643184656]
最近の大規模言語モデル(LLM)は、オンライン強化学習(RL)の恩恵を受ける強力な推論能力を示している。
教師付きファインタニング(SFT)とRLの組み合わせにより,事前学習したマスク付きdLLMを推論モデルに適応するフレームワークであるd1を提案する。
d1は最高の性能を示し、最先端のdLLMの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-16T16:08:45Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。