論文の概要: Stabilizing Reinforcement Learning for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2603.06743v1
- Date: Fri, 06 Mar 2026 08:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.015426
- Title: Stabilizing Reinforcement Learning for Diffusion Language Models
- Title(参考訳): 拡散言語モデルのための強化学習の安定化
- Authors: Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu,
- Abstract要約: グループ相対政策最適化(GRPO)は、自己回帰(AR)言語モデルの訓練後において非常に効果的である。
しかし、拡散大言語モデル(dLLM)への直接的な適用は、しばしば報酬の崩壊を引き起こす。
これらの効果は、政策ドリフトを駆動する自己強化不安定ループを形成し、さらに比の分散を増加させることを示す。
我々はDLLMに適したGRPOの再構成であるStableDRLを提案する。
- 参考スコア(独自算出の注目度): 27.22260417844743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) is highly effective for post-training autoregressive (AR) language models, yet its direct application to diffusion large language models (dLLMs) often triggers reward collapse. We identify two sources of incompatibility. First, GRPO relies on importance ratios defined by sequence probabilities, which are intractable in dLLMs and must be estimated (e.g., via ELBO-based or mean-field likelihood proxies), yielding inherently noisy ratios. Second, standard GRPO's formulation is not designed for estimated ratios: its conditional clipping can be anomalously bypassed by model-agnostic estimation noise, producing gradient spikes, while its fixed group-size normalization amplifies gradient-magnitude fluctuations under high-variance ratio estimates. We show these effects form a self-reinforcing instability loop that drives policy drift and further increases ratio variance. To break this loop, we propose StableDRL, a reformulation of GRPO tailored for dLLMs that uses (i) unconditional clipping to suppress outlier-induced spikes and (ii) self-normalization to constrain updates within the convex hull of per-sample gradients. We further extend StableDRL to block-wise diffusion models via a staircase attention mechanism.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は自己回帰(AR)言語モデルの訓練後において非常に効果的であるが、大きな言語モデル(dLLM)の拡散への直接的応用は報酬の崩壊を引き起こすことが多い。
不適合の原因を2つ特定する。
第一に、GRPO は、dLLM において抽出可能であり、推定されなければならない(例えば、ELBO ベースまたは平均場確率プロキシ)シーケンス確率によって定義される重要比に依存し、本質的にノイズの多い比をもたらす。
第2に、標準GRPOの定式化は推定比のために設計されていない: 条件付きクリッピングはモデルに依存しない推定ノイズによって不均一に回避でき、勾配スパイクを発生させ、一方、その固定群サイズ正規化は高分散比推定の下で勾配-マグニチュード変動を増幅する。
これらの効果は、政策ドリフトを駆動する自己強化不安定ループを形成し、さらに比の分散を増加させることを示す。
このループを断ち切るために、我々は、dLLM に適した GRPO の再構成である StableDRL を提案する。
(i)外乱によるスパイクやスパイクを抑制する無条件クリッピング
(II) サンプルごとの勾配の凸内における更新を制限するための自己正規化。
さらに,階段アテンション機構により,StableDRLをブロックワイズ拡散モデルに拡張する。
関連論文リスト
- Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models [48.68246945083386]
Likelihood-Free Policy Optimization (LFPO) は、ベクトル場フローの概念を離散トークン空間にマッピングするネイティブフレームワークである。
LFPOは幾何速度補正としてアライメントを定式化し、対照的な更新によって直接対流を最適化する。
実験によると、LFPOはコードと推論ベンチマークの最先端のベースラインを上回るだけでなく、拡散ステップの削減によって推論を約20%加速する。
論文 参考訳(メタデータ) (2026-03-02T07:42:55Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Goal inference with Rao-Blackwellized Particle Filters [5.633221187382381]
軌跡のノイズ観測から移動エージェントの最終的な目標を推定することは基本的な推定問題である。
我々は、ラオブラックウェル化粒子フィルタ(RBPF)の変種を用いて、そのような意図推論を行う。
我々は,情報理論漏洩指標を用いて,敵がエージェントの意図をどの程度回復できるかを定量化する。
論文 参考訳(メタデータ) (2025-12-10T02:48:55Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization [25.504794432255306]
拡散言語モデル(DLMs)は、反復的洗練を伴う並列で順序に依存しない生成を可能にする。
強化学習の微調整をDLMに適用することは、難易度が高いため、未解決の課題である。
DLMに適した新しいRLアルゴリズムである textbfGroup Diffusion Policy Optimization (GDPO) を導入する。
論文 参考訳(メタデータ) (2025-10-09T17:58:07Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。