論文の概要: Relative Score Policy Optimization for Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2605.10218v1
- Date: Mon, 11 May 2026 08:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.671666
- Title: Relative Score Policy Optimization for Diffusion Language Models
- Title(参考訳): 拡散言語モデルに対する相対スコアポリシー最適化
- Authors: Zichao Yu, Shengze Xu, Bingqing Jiang, Wenyi Zhang, Difan Zou,
- Abstract要約: 拡散大言語モデル(dLLMs)は、並列かつ効率的なテキスト生成への有望な経路を提供する。
抽出可能なシーケンスレベルのログ比の欠如により、既存の手法は高分散ELBOベースの近似に頼らざるを得なくなった。
textbfRelative textbfScore textbfPolicy textbfOptimization (RSPO)を提案する。
- 参考スコア(独自算出の注目度): 29.344961499429257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion large language models (dLLMs) offer a promising route to parallel and efficient text generation, but improving their reasoning ability requires effective post-training. Reinforcement learning with verifiable rewards (RLVR) is a natural choice for this purpose, yet its application to dLLMs is hindered by the absence of tractable sequence-level log-ratios, which are central to standard policy optimization. The lack of tractable sequence-level log-ratios forces existing methods to rely on high-variance ELBO-based approximations, where high verifier rewards can amplify inaccurate score estimates and destabilize RL training. To overcome this issue, we propose \textbf{R}elative \textbf{S}core \textbf{P}olicy \textbf{O}ptimization (RSPO), a simple RLVR method that uses verifiable rewards to calibrate noisy likelihood estimates in dLLMs. The core of our algorithm relies on a key observation: a reward advantage can be interpreted not only as an update direction, but also as a target for the relative log-ratio between the current and reference policies. Accordingly, RSPO calibrates this noisy relative log-ratio estimate by comparing its reward advantage with the reward-implied target relative log-ratio, updating the policy according to the gap between the current estimate and the target rather than the raw advantage alone. Experiments on mathematical reasoning and planning benchmarks show that RSPO yields especially strong gains on planning tasks and competitive mathematical-reasoning performance.
- Abstract(参考訳): 拡散大言語モデル(dLLM)は、並列かつ効率的なテキスト生成への有望な経路を提供するが、推論能力を改善するには効果的な後学習が必要である。
検証可能な報酬付き強化学習(RLVR)は、この目的には自然な選択であるが、そのdLLMへの適用は、標準的なポリシー最適化の中心となる、取り外し可能なシーケンスレベルのログ比が欠如していることによって妨げられる。
抽出可能なシーケンスレベルのログ比の欠如により、既存の手法は高分散ELBOベースの近似に頼らざるを得なくなり、高い検証器報酬は不正確なスコア推定を増幅し、RLトレーニングを不安定にすることができる。
この問題を解決するために,dLLM における雑音推定推定値の校正に検証可能な報酬を用いた簡易な RLVR 法である \textbf{R}elative \textbf{S}core \textbf{P}olicy \textbf{O}ptimization (RSPO) を提案する。
報酬の優位性は、更新方向だけでなく、現在のポリシーと参照ポリシーの相対対数比のターゲットとして解釈できる。
したがって、RSPOはこのノイズの多い相対的対数比の推定を、報奨方式の目標相対対数比と比較することで校正し、現在の推定値と目標とのギャップに応じてポリシーを更新する。
数学的推論と計画ベンチマークの実験は、RSPOが特に計画タスクと競合する数学的推論性能に強い利益をもたらすことを示している。
関連論文リスト
- Rethinking Importance Sampling in LLM Policy Optimization: A Cumulative Token Perspective [22.848847562976633]
トークンレベルのIS比は、PPOとGRPOが採用しているように、プレフィックス状態の分布ミスマッチを無視してバイアスを導入する。
我々は、累積トークンIS比と、累積対数比の自然な$sqrtt$成長に応じて、対数空間のクリップ境界を拡大する位置適応クリッピングを組み合わせたCTPOを提案する。
論文 参考訳(メタデータ) (2026-05-08T06:35:02Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Segmental Advantage Estimation: Enhancing PPO for Long-Context LLM Training [17.530233901658253]
セグメンショナルアドバンテージ推定は、一般化アドバンテージ推定が検証されたリワードを用いた強化学習において生じるバイアスを緩和する。
SAEは、最終的なスコア、安定性、サンプル効率を著しく改善し、優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-12T08:41:47Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。