論文の概要: Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.08554v1
- Date: Thu, 09 Oct 2025 17:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.300149
- Title: Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization
- Title(参考訳): グループ拡散ポリシー最適化による拡散言語モデルの推論の改善
- Authors: Kevin Rojas, Jiahe Lin, Kashif Rasul, Anderson Schneider, Yuriy Nevmyvaka, Molei Tao, Wei Deng,
- Abstract要約: 拡散言語モデル(DLMs)は、反復的洗練を伴う並列で順序に依存しない生成を可能にする。
強化学習の微調整をDLMに適用することは、難易度が高いため、未解決の課題である。
DLMに適した新しいRLアルゴリズムである textbfGroup Diffusion Policy Optimization (GDPO) を導入する。
- 参考スコア(独自算出の注目度): 25.504794432255306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) enable parallel, order-agnostic generation with iterative refinement, offering a flexible alternative to autoregressive large language models (LLMs). However, adapting reinforcement learning (RL) fine-tuning to DLMs remains an open challenge because of the intractable likelihood. Pioneering work such as diffu-GRPO estimated token-level likelihoods via one-step unmasking. While computationally efficient, this approach is severely biased. A more principled foundation lies in sequence-level likelihoods, where the evidence lower bound (ELBO) serves as a surrogate. Yet, despite this clean mathematical connection, ELBO-based methods have seen limited adoption due to the prohibitive cost of likelihood evaluation. In this work, we revisit ELBO estimation and disentangle its sources of variance. This decomposition motivates reducing variance through fast, deterministic integral approximations along a few pivotal dimensions. Building on this insight, we introduce \textbf{Group Diffusion Policy Optimization (GDPO)}, a new RL algorithm tailored for DLMs. GDPO leverages simple yet effective Semi-deterministic Monte Carlo schemes to mitigate the variance explosion of ELBO estimators under vanilla double Monte Carlo sampling, yielding a provably lower-variance estimator under tight evaluation budgets. Empirically, GDPO achieves consistent gains over pretrained checkpoints and outperforms diffu-GRPO, one of the state-of-the-art baselines, on the majority of math, reasoning, and coding benchmarks.
- Abstract(参考訳): 拡散言語モデル (DLMs) は並列で順序に依存しない生成を可能にするため、自己回帰型大規模言語モデル (LLMs) に代わる柔軟な代替手段を提供する。
しかし、強化学習(RL)のDLMへの微調整は、難易度が高いため、未解決の課題である。
diffu-GRPOのようなパイオニアの作業は、1ステップのアンマスキングによってトークンレベル確率を推定する。
計算効率は高いが、このアプローチはひどく偏りがある。
より原理化された基礎は、エビデンス・ロー・バウンド(ELBO)がサロゲートとして機能するシーケンスレベルの可能性にある。
しかし、このクリーンな数学的接続にもかかわらず、ELBOベースの手法は、可能性評価の禁止コストのため、採用が限られている。
本研究は,ELBO推定を再検討し,その分散源を分解する。
この分解は、いくつかの中心的な次元に沿った高速で決定論的積分近似による分散の減少を動機付けている。
この知見に基づいて,DLMに適した新しいRLアルゴリズムである \textbf{group Diffusion Policy Optimization (GDPO) を導入する。
GDPOは、単純な半決定論的モンテカルロスキームを利用して、バニラ二重モンテカルロサンプリングの下でのELBO推定器の分散爆発を緩和し、厳密な評価予算下では証明可能な低分散推定器を生み出す。
GDPOは、事前訓練されたチェックポイントよりも一貫したゲインを達成し、多くの数学、推論、コーディングベンチマークに基づいて、最先端のベースラインの1つであるdiffu-GRPOを上回ります。
関連論文リスト
- Principled and Tractable RL for Reasoning with Diffusion Language Models [0.0]
拡散大言語モデル(dLLM)は、複数のトークンを並列に予測し、反復的アンマスキングによってテキストを生成するように訓練されている。
最近の研究は、DLLMを8Bスケールでの自己回帰LDMと同等に事前訓練することに成功しているが、現代のポストトレーニング技術の恩恵を受けていない。
本稿では,dLLMに特化して設計されたオンラインRLアルゴリズムであるAGRPO(Amortized Group Relative Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-10-05T03:53:16Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models [15.638885149395657]
dLLMs確率関数の抽出可能性には、各ポリシー最適化ステップにおける現在の、古い、参照ポリシーの確率を近似する必要がある。
我々は、目的を重み付けされた可能性として再構成する、新しいポリシー最適化アプローチである$mathttwd1$を導入する。
広く使われている推論ベンチマークの実験では、$mathttwd1$は教師付き微調整(SFT)や教師付きデータなしで、dLLMの既存のRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-07-07T21:27:25Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。