論文の概要: Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.08554v1
- Date: Thu, 09 Oct 2025 17:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.300149
- Title: Improving Reasoning for Diffusion Language Models via Group Diffusion Policy Optimization
- Title(参考訳): グループ拡散ポリシー最適化による拡散言語モデルの推論の改善
- Authors: Kevin Rojas, Jiahe Lin, Kashif Rasul, Anderson Schneider, Yuriy Nevmyvaka, Molei Tao, Wei Deng,
- Abstract要約: 拡散言語モデル(DLMs)は、反復的洗練を伴う並列で順序に依存しない生成を可能にする。
強化学習の微調整をDLMに適用することは、難易度が高いため、未解決の課題である。
DLMに適した新しいRLアルゴリズムである textbfGroup Diffusion Policy Optimization (GDPO) を導入する。
- 参考スコア(独自算出の注目度): 25.504794432255306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (DLMs) enable parallel, order-agnostic generation with iterative refinement, offering a flexible alternative to autoregressive large language models (LLMs). However, adapting reinforcement learning (RL) fine-tuning to DLMs remains an open challenge because of the intractable likelihood. Pioneering work such as diffu-GRPO estimated token-level likelihoods via one-step unmasking. While computationally efficient, this approach is severely biased. A more principled foundation lies in sequence-level likelihoods, where the evidence lower bound (ELBO) serves as a surrogate. Yet, despite this clean mathematical connection, ELBO-based methods have seen limited adoption due to the prohibitive cost of likelihood evaluation. In this work, we revisit ELBO estimation and disentangle its sources of variance. This decomposition motivates reducing variance through fast, deterministic integral approximations along a few pivotal dimensions. Building on this insight, we introduce \textbf{Group Diffusion Policy Optimization (GDPO)}, a new RL algorithm tailored for DLMs. GDPO leverages simple yet effective Semi-deterministic Monte Carlo schemes to mitigate the variance explosion of ELBO estimators under vanilla double Monte Carlo sampling, yielding a provably lower-variance estimator under tight evaluation budgets. Empirically, GDPO achieves consistent gains over pretrained checkpoints and outperforms diffu-GRPO, one of the state-of-the-art baselines, on the majority of math, reasoning, and coding benchmarks.
- Abstract(参考訳): 拡散言語モデル (DLMs) は並列で順序に依存しない生成を可能にするため、自己回帰型大規模言語モデル (LLMs) に代わる柔軟な代替手段を提供する。
しかし、強化学習(RL)のDLMへの微調整は、難易度が高いため、未解決の課題である。
diffu-GRPOのようなパイオニアの作業は、1ステップのアンマスキングによってトークンレベル確率を推定する。
計算効率は高いが、このアプローチはひどく偏りがある。
より原理化された基礎は、エビデンス・ロー・バウンド(ELBO)がサロゲートとして機能するシーケンスレベルの可能性にある。
しかし、このクリーンな数学的接続にもかかわらず、ELBOベースの手法は、可能性評価の禁止コストのため、採用が限られている。
本研究は,ELBO推定を再検討し,その分散源を分解する。
この分解は、いくつかの中心的な次元に沿った高速で決定論的積分近似による分散の減少を動機付けている。
この知見に基づいて,DLMに適した新しいRLアルゴリズムである \textbf{group Diffusion Policy Optimization (GDPO) を導入する。
GDPOは、単純な半決定論的モンテカルロスキームを利用して、バニラ二重モンテカルロサンプリングの下でのELBO推定器の分散爆発を緩和し、厳密な評価予算下では証明可能な低分散推定器を生み出す。
GDPOは、事前訓練されたチェックポイントよりも一貫したゲインを達成し、多くの数学、推論、コーディングベンチマークに基づいて、最先端のベースラインの1つであるdiffu-GRPOを上回ります。
関連論文リスト
- Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models [48.68246945083386]
Likelihood-Free Policy Optimization (LFPO) は、ベクトル場フローの概念を離散トークン空間にマッピングするネイティブフレームワークである。
LFPOは幾何速度補正としてアライメントを定式化し、対照的な更新によって直接対流を最適化する。
実験によると、LFPOはコードと推論ベンチマークの最先端のベースラインを上回るだけでなく、拡散ステップの削減によって推論を約20%加速する。
論文 参考訳(メタデータ) (2026-03-02T07:42:55Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Boundary-Guided Policy Optimization for Memory-efficient RL of Diffusion Large Language Models [53.339700196282905]
大きな言語モデル(dLLM)に強化学習を適用する上で重要な課題は、その可能性関数の抽出性である。
本稿では,ELBOに基づく目的の特別に構築された下界を最大化するメモリ効率のRLアルゴリズムを提案する。
実験によると、BGPOは数学の問題解決、コード生成、計画タスクにおいて、dLLMの以前のRLアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-10-13T17:47:50Z) - Principled and Tractable RL for Reasoning with Diffusion Language Models [0.0]
拡散大言語モデル(dLLM)は、複数のトークンを並列に予測し、反復的アンマスキングによってテキストを生成するように訓練されている。
最近の研究は、DLLMを8Bスケールでの自己回帰LDMと同等に事前訓練することに成功しているが、現代のポストトレーニング技術の恩恵を受けていない。
本稿では,dLLMに特化して設計されたオンラインRLアルゴリズムであるAGRPO(Amortized Group Relative Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-10-05T03:53:16Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - wd1: Weighted Policy Optimization for Reasoning in Diffusion Language Models [15.638885149395657]
dLLMs確率関数の抽出可能性には、各ポリシー最適化ステップにおける現在の、古い、参照ポリシーの確率を近似する必要がある。
我々は、目的を重み付けされた可能性として再構成する、新しいポリシー最適化アプローチである$mathttwd1$を導入する。
広く使われている推論ベンチマークの実験では、$mathttwd1$は教師付き微調整(SFT)や教師付きデータなしで、dLLMの既存のRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-07-07T21:27:25Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。