論文の概要: Geometric-Mean Policy Optimization
- arxiv url: http://arxiv.org/abs/2507.20673v1
- Date: Mon, 28 Jul 2025 09:54:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.071444
- Title: Geometric-Mean Policy Optimization
- Title(参考訳): 幾何学的平均政策最適化
- Authors: Yuzhong Zhao, Yue Liu, Junpeng Liu, Jingye Chen, Xun Wu, Yaru Hao, Tengchao Lv, Shaohan Huang, Lei Cui, Qixiang Ye, Fang Wan, Furu Wei,
- Abstract要約: グループ相対政策最適化(GRPO)の安定化版を提案する。
算術平均を最適化する代わりに、GMPOはトークンレベルの報酬の幾何学平均を最大化する。
GMPO-7Bは安定性の向上に加えて、複数の数学ベンチマークでは平均4.1%、マルチモーダル推論ベンチマークでは1.4%でGRPOを上回っている。
- 参考スコア(独自算出の注目度): 122.95205388291987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements, such as Group Relative Policy Optimization (GRPO), have enhanced the reasoning capabilities of large language models by optimizing the arithmetic mean of token-level rewards. However, GRPO suffers from unstable policy updates when processing tokens with outlier importance-weighted rewards, which manifests as extreme importance sampling ratios during training, i.e., the ratio between the sampling probabilities assigned to a token by the current and old policies. In this work, we propose Geometric-Mean Policy Optimization (GMPO), a stabilized variant of GRPO. Instead of optimizing the arithmetic mean, GMPO maximizes the geometric mean of token-level rewards, which is inherently less sensitive to outliers and maintains a more stable range of importance sampling ratio. In addition, we provide comprehensive theoretical and experimental analysis to justify the design and stability benefits of GMPO. Beyond improved stability, GMPO-7B outperforms GRPO by an average of 4.1% on multiple mathematical benchmarks and 1.4% on multimodal reasoning benchmark, including AIME24, AMC, MATH500, OlympiadBench, Minerva, and Geometry3K. Code is available at https://github.com/callsys/GMPO.
- Abstract(参考訳): グループ相対政策最適化(GRPO)のような最近の進歩は、トークンレベルの報酬の算術平均を最適化することによって、大規模言語モデルの推論能力を高めている。
しかし、GRPOは、トレーニング中に極度に重要なサンプリング比(すなわち、現在のポリシーと古いポリシーによってトークンに割り当てられたサンプリング確率の比率)を示す、重要度重み付けされた報酬付きトークンを処理する際に不安定なポリシー更新に悩まされる。
本研究では,GRPOの安定化版であるGeometric-Mean Policy Optimization (GMPO)を提案する。
算術平均を最適化する代わりに、GMPOはトークンレベルの報酬の幾何学平均を最大化する。
さらに、GMPOの設計と安定性の利点を正当化するために、包括的な理論的および実験的分析を提供する。
安定性の向上に加えて、GMPO-7BはGRPOを平均4.1%、AIME24、AMC、MATH500、OlympiadBench、Minerva、Geometry3Kなどのマルチモーダル推論ベンチマークでは1.4%で上回っている。
コードはhttps://github.com/callsys/GMPOで入手できる。
関連論文リスト
- BNPO: Beta Normalization Policy Optimization [9.60676665395923]
動的に更新されたパラメータを持つベータ分布を用いて報酬を適応的に正規化する新しいポリシー最適化手法を提案する。
本稿では,BNPOの分散還元特性を理論的に証明し,二値報酬設定の下でREINFORCEとGRPOの両方を一般化することを示す。
実験の結果,BNPOは推論タスクにおけるポリシー最適化手法の最先端性能を達成できることを確認した。
論文 参考訳(メタデータ) (2025-06-03T13:28:57Z) - Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.708197376569016]
グループ相対政策最適化(GRPO)は、グループ内のすべての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案される。
これは、非常にノイズの多い報奨を伴う環境において、不正確な有利な見積もりをもたらし、バイアスをもたらす可能性がある。
本稿では,KRPO(Kalman Filter Enhanced Group Relative Policy Optimization)と呼ばれるモデルを提案する。
論文 参考訳(メタデータ) (2025-05-12T13:09:49Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Risk-Sensitive Markov Decision Processes with Combined Metrics of Mean
and Variance [3.062772835338966]
本稿では,長期平均値を持つ無限段階離散時間マルコフ決定過程(MDP)の最適化問題について検討する。
性能差式が導出され、任意の2つの異なるポリシーの下で、MPPの平均分散結合メトリクスの差を定量化することができる。
最適政策の必要条件と決定論的政策の最適性が導出される。
論文 参考訳(メタデータ) (2020-08-09T10:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。