論文の概要: MO-GRPO: Mitigating Reward Hacking of Group Relative Policy Optimization on Multi-Objective Problems
- arxiv url: http://arxiv.org/abs/2509.22047v1
- Date: Fri, 26 Sep 2025 08:32:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.299464
- Title: MO-GRPO: Mitigating Reward Hacking of Group Relative Policy Optimization on Multi-Objective Problems
- Title(参考訳): MO-GRPO:多目的問題に対するグループ相対的政策最適化の逆ハックの軽減
- Authors: Yuki Ichihara, Yuu Jinnai, Tetsuro Morimura, Mitsuki Sakamoto, Ryota Mitsuhashi, Eiji Uchibe,
- Abstract要約: グループ相対政策最適化は、正確な報酬モデルが利用できる場合に有効なアルゴリズムであることが示されている。
報奨関数を値のばらつきに応じて自動的に重み付けする単純な正規化法により,GRPOの拡張であるMO-GRPOを提案する。
また、MO-GRPOは、全ての報酬関数が優先順序を保ちながら損失関数に等しく寄与することを保証していることを示す。
- 参考スコア(独自算出の注目度): 18.92779479033295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has been shown to be an effective algorithm when an accurate reward model is available. However, such a highly reliable reward model is not available in many real-world tasks. In this paper, we particularly focus on multi-objective settings, in which we identify that GRPO is vulnerable to reward hacking, optimizing only one of the objectives at the cost of the others. To address this issue, we propose MO-GRPO, an extension of GRPO with a simple normalization method to reweight the reward functions automatically according to the variances of their values. We first show analytically that MO-GRPO ensures that all reward functions contribute evenly to the loss function while preserving the order of preferences, eliminating the need for manual tuning of the reward functions' scales. Then, we evaluate MO-GRPO experimentally in four domains: (i) the multi-armed bandits problem, (ii) simulated control task (Mo-Gymnasium), (iii) machine translation tasks on the WMT benchmark (En-Ja, En-Zh), and (iv) instruction following task. MO-GRPO achieves stable learning by evenly distributing correlations among the components of rewards, outperforming GRPO, showing MO-GRPO to be a promising algorithm for multi-objective reinforcement learning problems.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は、正確な報酬モデルが利用できる場合に有効なアルゴリズムであることが示されている。
しかし、そのような信頼性の高い報酬モデルは現実世界の多くのタスクでは利用できない。
本稿では,特にマルチオブジェクト設定に着目し,GRPOがハッキングの報奨に弱いことを認識し,他者のコストで目標の1つだけを最適化する。
そこで本研究では,GRPOの拡張であるMO-GRPOを提案する。このMO-GRPOは,値のばらつきに応じて報酬関数を自動的に重み付けする単純な正規化法である。
まず、MO-GRPOは、全ての報酬関数が損失関数に等しく寄与し、好みの順序を保ちながら、報酬関数のスケールを手動で調整する必要がなくなることを解析的に示す。
そして、4つの領域でMO-GRPOを実験的に評価する。
(i)マルチアームバンディット問題。
(ii)模擬制御タスク(Mo-Gymnasium)
三 WMTベンチマーク(En-Ja、En-Zh)における機械翻訳タスク
(四) 指示の次。
MO-GRPOは,報奨成分間の相関関係を均等に分散して安定した学習を実現し,MO-GRPOを多目的強化学習問題に対する有望なアルゴリズムであることを示す。
関連論文リスト
- GRPO is Secretly a Process Reward Model [5.637496960655903]
GRPO RLアルゴリズムは実世界の条件下で非自明なプロセス報酬モデルを生成する。
この欠陥を軽減するために,アルゴリズムの簡単な修正を提案する。
この結果から,GRPO の高コストで明示的な PRM の利点を疑問視する。
論文 参考訳(メタデータ) (2025-09-25T13:40:36Z) - One Step is Enough: Multi-Agent Reinforcement Learning based on One-Step Policy Optimization for Order Dispatch on Ride-Sharing Platforms [11.43941442981793]
MARLベースのライドシェアリングアプローチは、Q値またはV値の正確な推定に大きく依存している。
本稿では,値関数推定をバイパスする2つの新しい方法を提案する。
まず、GRPOをライドシェアリングに適応させ、PPOベースラインをグループ平均報酬に置き換えて、批判的推定誤差を排除する。
第2に、GRPOによるグループ報酬情報の完全活用に触発されて、配車プラットフォーム向けのPPOフレームワークをカスタマイズし、均質なフリートの下では、1ステップの報酬のみを使用して最適な政策を訓練できることを示します。
論文 参考訳(メタデータ) (2025-07-21T08:04:31Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Multi-Layer GRPO: Enhancing Reasoning and Self-Correction in Large Language Models [3.0763741715155666]
我々は,MGRPO(Multi-layer GRPO)を提案する。
MGRPOは標準GRPOを著しく上回り、推論能力と自己補正能力の両方を育成することで優れた性能を達成する。
論文 参考訳(メタデータ) (2025-06-05T08:27:34Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z) - Intersectional Fairness in Reinforcement Learning with Large State and Constraint Spaces [16.400288624027375]
多くの実世界の環境では、複数の目的を同時に最適化することが重要である。
目的を1つのスカラー報酬関数の状態ベース再重み付けによって定義する多目的最適化問題を考察する。
目的数が指数関数的に大きい場合でも、これらの多目的RL問題を解決するためのオラクル効率のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2025-02-17T14:25:33Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。