論文の概要: Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training
- arxiv url: http://arxiv.org/abs/2505.22257v1
- Date: Wed, 28 May 2025 11:42:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.578242
- Title: Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training
- Title(参考訳): グループ相対的政策最適化の見直し:オン・ポリティとオフ・ポリティ・トレーニングの展望
- Authors: Youssef Mroueh, Nicolas Dupuis, Brian Belgodere, Apoorva Nitsure, Mattia Rigotti, Kristjan Greenewald, Jiri Navratil, Jerret Ross, Jesus Rios,
- Abstract要約: 我々は、政治と政治の双方の最適化体制において、グループ相対政策最適化(GRPO)を再考する。
我々は、政治と政治以外のGRPO目標の両方が報酬の改善をもたらすことを示す。
次に,2つのGRPO変種を用いた後学習における強化学習の実証的性能と検証可能な報酬とを比較した。
- 参考スコア(独自算出の注目度): 19.783852824564736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit Group Relative Policy Optimization (GRPO) in both on-policy and off-policy optimization regimes. Our motivation comes from recent work on off-policy Proximal Policy Optimization (PPO), which improves training stability, sampling efficiency, and memory usage. In addition, a recent analysis of GRPO suggests that estimating the advantage function with off-policy samples could be beneficial. Building on these observations, we adapt GRPO to the off-policy setting. We show that both on-policy and off-policy GRPO objectives yield an improvement in the reward. This result motivates the use of clipped surrogate objectives in the off-policy version of GRPO. We then compare the empirical performance of reinforcement learning with verifiable rewards in post-training using both GRPO variants. Our results show that off-policy GRPO either significantly outperforms or performs on par with its on-policy counterpart.
- Abstract(参考訳): 我々は、政治と政治の双方の最適化体制において、グループ相対政策最適化(GRPO)を再考する。
私たちのモチベーションは、トレーニングの安定性、サンプリング効率、メモリ使用量を改善する、政策外政策最適化(PPO)に関する最近の研究から来ています。
さらに、最近のGRPOの分析では、非政治サンプルで有利な関数を推定することは有益である可能性が示唆されている。
これらの観測に基づいて、GRPOをオフ・ポリティシック・セッティングに適応させる。
我々は、政治と政治以外のGRPO目標の両方が報酬の改善をもたらすことを示す。
この結果は、GRPOのオフポリケーション版におけるクリップされたサロゲート目的の使用を動機付けている。
次に,2つのGRPO変種を用いた後学習における強化学習の実証的性能と検証可能な報酬とを比較した。
以上の結果から, 政策外のGRPOは, 政策上のGRPOと大きく差があるか, あるいは同等に機能していることが明らかとなった。
関連論文リスト
- DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [68.26281707780761]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOはGSM8Kで最大8.32タイム、Mathで3.51タイム、オリジナルのGRPOと比較して精度を保ったり、向上させたりすることができる。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - Hybrid Group Relative Policy Optimization: A Multi-Sample Approach to Enhancing Policy Optimization [0.0]
Hybrid Group Relative Policy Optimization (Hybrid GRPO)は強化学習フレームワークである。
価値関数に基づく学習の安定性を維持しつつ、実証的なマルチサンプル動作評価を取り入れている。
構造化された経験的サンプリングと強化学習安定性機構を統合することで、Hybrid GRPOは自律ロボット工学、金融モデリング、AI駆動制御システムに潜在的に応用できる。
論文 参考訳(メタデータ) (2025-01-30T21:04:01Z) - Understanding Reference Policies in Direct Preference Optimization [50.67309013764383]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)の微調整のための訓練手法として広く使われている。
この研究は、参照モデルやポリシーに依存しているDPOの未検討の側面を探求する。
論文 参考訳(メタデータ) (2024-07-18T17:08:10Z) - Transductive Off-policy Proximal Policy Optimization [27.954910833441705]
本稿では,従来のPPO法(Transductive Off-policy PPO (ToPPO))と命名された新しいオフポリシー拡張を提案する。
我々の貢献には、非政治データから導かれる将来的な政策に対する政策改善の低い境界の新たな定式化が含まれます。
ToPPOの有望な性能を裏付ける6つの代表的なタスクの総合的な実験結果。
論文 参考訳(メタデータ) (2024-06-06T09:29:40Z) - Reflective Policy Optimization [20.228281670899204]
リフレクティブポリシー最適化(RPO) 政策最適化のための過去と将来の状態対応情報。
RPOはエージェントにイントロスペクションの権限を与え、現在の状態内でのアクションの変更を可能にする。
RPOの有効性と有効性は2つの強化学習ベンチマークで実証された。
論文 参考訳(メタデータ) (2024-06-06T01:46:49Z) - A dynamical clipping approach with task feedback for Proximal Policy Optimization [29.855219523565786]
最適なPPOクリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
過去の研究は、PPOクリッピングバウンドを動的に調整し、PPOの性能を向上させることを目的としている。
我々は、強化学習タスクの嗜好(最大回帰)をよりよく反映するために、Preference based Proximal Policy Optimization (Pb-PPO)を提案する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - Increasing Entropy to Boost Policy Gradient Performance on
Personalization Tasks [0.46040036610482665]
政策勾配を用いて訓練した強化学習エージェントから得られた政策の多様性に及ぼす正規化の影響を考察する。
数値的な証拠は、ポリシーの正則化が、精度を損なうことなく、性能を向上させることを示すために与えられる。
論文 参考訳(メタデータ) (2023-10-09T01:03:05Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。