論文の概要: GOPO: Policy Optimization using Ranked Rewards
- arxiv url: http://arxiv.org/abs/2602.03876v1
- Date: Sun, 01 Feb 2026 22:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.188014
- Title: GOPO: Policy Optimization using Ranked Rewards
- Title(参考訳): GOPO:ランク付きリワードを用いた政策最適化
- Authors: Kyuseong Choi, Dwaipayan Saha, Woojeong Kim, Anish Agarwal, Raaz Dwivedi,
- Abstract要約: Group Ordinal Policy Optimization (GOPO) は報酬のランク付けのみを使用し、その規模を廃止する。
さまざまなタスクとモデルサイズで一貫した改善を示します。
- 参考スコア(独自算出の注目度): 12.100854296428524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard reinforcement learning from human feedback (RLHF) trains a reward model on pairwise preference data and then uses it for policy optimization. However, while reward models are optimized to capture relative preferences, existing policy optimization techniques rely on absolute reward magnitudes during training. In settings where the rewards are non-verifiable such as summarization, instruction following, and chat completion, this misalignment often leads to suboptimal performance. We introduce Group Ordinal Policy Optimization (GOPO), a policy optimization method that uses only the ranking of the rewards and discards their magnitudes. Our rank-based transformation of rewards provides several gains, compared to Group Relative Policy Optimization (GRPO), in settings with non-verifiable rewards: (1) consistently higher training/validation reward trajectories, (2) improved LLM-as-judge evaluations across most intermediate training steps, and (3) reaching a policy of comparable quality in substantially less training steps than GRPO. We demonstrate consistent improvements across a range of tasks and model sizes.
- Abstract(参考訳): ヒューマンフィードバック(RLHF)からの標準的な強化学習は、ペアの選好データに基づいて報酬モデルを訓練し、ポリシー最適化にそれを使用する。
しかし、報酬モデルが相対的な嗜好を捉えるために最適化されている一方で、既存の政策最適化手法は訓練中に絶対的な報酬等級に依存している。
報酬が要約、命令従順、チャット完了などの検証不可能な設定では、このミスアライメントは、しばしば準最適パフォーマンスをもたらす。
本稿では,報酬のランク付けのみを使用し,その規模を縮小する政策最適化手法であるグループ・オーディショナル・ポリシー・オプティマイズ(GOPO)を紹介する。
報酬のランクに基づく変換は,(1)訓練・評価報酬のトラジェクトリが一貫して向上し,(2)中等教育段階のLLM-as-judge評価が改善され,(3)中等教育段階のほぼ少ない段階において,同等品質の政策に達するという,非検証報酬の条件で,グループ相対政策最適化(GRPO)と比較して,いくつかの利得を提供する。
さまざまなタスクとモデルサイズで一貫した改善を実証します。
関連論文リスト
- GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - GVPO: Group Variance Policy Optimization for Large Language Model Post-Training [19.005045649097987]
群変数ポリシー最適化(GVPO)は、KL制約された報酬を直接重みに含める分析解である。
GVPOには2つの大きな利点がある: ユニークな最適解、正確にはKL制約の報酬目的、および柔軟なサンプリング分布をサポートする。
GVPOは、理論的な保証を実用的適応性で統一することにより、信頼性と汎用性を備えたLLMポストトレーニングのための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-28T09:02:24Z) - Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。