論文の概要: GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
- arxiv url: http://arxiv.org/abs/2601.05242v1
- Date: Thu, 08 Jan 2026 18:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.352072
- Title: GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization
- Title(参考訳): GDPO:マルチリワードRL最適化のためのグループ報酬分離正規化ポリシー最適化
- Authors: Shih-Yang Liu, Xin Dong, Ximing Lu, Shizhe Diao, Peter Belcak, Mingjie Liu, Min-Hung Chen, Hongxu Yin, Yu-Chiang Frank Wang, Kwang-Ting Cheng, Yejin Choi, Jan Kautz, Pavlo Molchanov,
- Abstract要約: 我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
- 参考スコア(独自算出の注目度): 133.27496265096445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As language models become increasingly capable, users expect them to provide not only accurate responses but also behaviors aligned with diverse human preferences across a variety of scenarios. To achieve this, Reinforcement learning (RL) pipelines have begun incorporating multiple rewards, each capturing a distinct preference, to guide models toward these desired behaviors. However, recent work has defaulted to apply Group Relative Policy Optimization (GRPO) under multi-reward setting without examining its suitability. In this paper, we demonstrate that directly applying GRPO to normalize distinct rollout reward combinations causes them to collapse into identical advantage values, reducing the resolution of the training signal and resulting in suboptimal convergence and, in some cases, early training failure. We then introduce Group reward-Decoupled Normalization Policy Optimization (GDPO), a new policy optimization method to resolve these issues by decoupling the normalization of individual rewards, more faithfully preserving their relative differences and enabling more accurate multi-reward optimization, along with substantially improved training stability. We compare GDPO with GRPO across three tasks: tool calling, math reasoning, and coding reasoning, evaluating both correctness metrics (accuracy, bug ratio) and constraint adherence metrics (format, length). Across all settings, GDPO consistently outperforms GRPO, demonstrating its effectiveness and generalizability for multi-reward reinforcement learning optimization.
- Abstract(参考訳): 言語モデルがますます有能になるにつれて、ユーザは、正確な応答だけでなく、さまざまなシナリオにおけるさまざまな人間の好みに沿った行動を提供することを期待している。
これを実現するために、強化学習(RL)パイプラインは複数の報酬を取り入れ始め、それぞれが異なる好みを捉え、これらの望ましい行動に向けてモデルを導く。
しかし、最近の研究は、グループ相対政策最適化(GRPO)を、その適合性を調べることなく、マルチリワード設定で適用することがデフォルトとなっている。
本稿では,GRPOを個別のロールアウト報酬組合せを正規化するために直接適用することにより,それらが同一の有利値に崩壊し,トレーニング信号の分解能が低下し,最適下限収束が生じ,場合によっては早期のトレーニング失敗が生じることを実証する。
次に,グループ報酬分離正規化政策最適化(GDPO)を導入し,個別報酬の正規化を分離し,相対的差異をより忠実に保存し,より正確なマルチリワード最適化を実現するとともに,トレーニング安定性を大幅に向上させることにより,これらの問題を解決する新しい政策最適化手法を提案する。
GDPOとGRPOをツールコール、数学推論、コーディング推論の3つのタスクで比較し、正確性指標(精度、バグ比)と制約付着指標(フォーマット、長さ)を評価した。
すべての設定において、GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を実証している。
関連論文リスト
- Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models [15.799929216215672]
制約付きKL正規化最適化としてアライメントをフレーム化するMOPOアルゴリズムを提案する。
以前の作業とは異なり、MOPOはペアワイズ好みのデータを直接操作し、ポイントワイズ報酬の仮定を必要とせず、プロンプトコンテキストエンジニアリングを避ける。
論文 参考訳(メタデータ) (2025-05-16T05:58:26Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Group Robust Preference Optimization in Reward-free RLHF [23.622835830345725]
そこで本研究では,大規模言語モデルと各グループの嗜好を密に整合させる新しいグループロバスト選好最適化法を提案する。
これを達成するため、GRPOは異なるグループの重要性を適応的かつ順次重み付けし、累積損失が悪化したグループを優先順位付けする。
我々は,最悪のパフォーマンス群の性能向上,グループ間の損失不均衡の低減,確率精度の向上について検討した。
論文 参考訳(メタデータ) (2024-05-30T17:50:04Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。