論文の概要: One Ring to Rule Them All: Unifying Group-Based RL via Dynamic Power-Mean Geometry
- arxiv url: http://arxiv.org/abs/2601.22521v1
- Date: Fri, 30 Jan 2026 03:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.204124
- Title: One Ring to Rule Them All: Unifying Group-Based RL via Dynamic Power-Mean Geometry
- Title(参考訳): グループベースのRLを動的パワー平均幾何で統一する一環
- Authors: Weisong Zhao, Tong Wang, Zichang Tan, Te Yang, Siran Peng, Haoyuan Zhang, Tianshuo Zhang, Haichao Shi, Meng Meng, Yang Yang, Xiangyu Zhu, Zhen Lei, Xiao-Yu Zhang, Xu Zhou,
- Abstract要約: グループベース強化学習はGRPOの算術平均からGMPOの幾何学平均へと進化してきた。
我々はこれらのアプローチを,集約幾何学をパラメータ化する一般化されたフレームワークであるPMPO(Power-Mean Policy Optimization)の下で統一する。
我々は,p調整が勾配更新の濃度を調節し,その利点に基づいてトークンを効果的に再重み付けすることを示した。
- 参考スコア(独自算出の注目度): 40.539393367855176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group-based reinforcement learning has evolved from the arithmetic mean of GRPO to the geometric mean of GMPO. While GMPO improves stability by constraining a conservative objective, it shares a fundamental limitation with GRPO: reliance on a fixed aggregation geometry that ignores the evolving and heterogeneous nature of each trajectory. In this work, we unify these approaches under Power-Mean Policy Optimization (PMPO), a generalized framework that parameterizes the aggregation geometry via the power-mean geometry exponent p. Within this framework, GRPO and GMPO are recovered as special cases. Theoretically, we demonstrate that adjusting p modulates the concentration of gradient updates, effectively reweighting tokens based on their advantage contribution. To determine p adaptively, we introduce a Clip-aware Effective Sample Size (ESS) mechanism. Specifically, we propose a deterministic rule that maps a trajectory clipping fraction to a target ESS. Then, we solve for the specific p to align the trajectory induced ESS with this target one. This allows PMPO to dynamically transition between the aggressive arithmetic mean for reliable trajectories and the conservative geometric mean for unstable ones. Experiments on multiple mathematical reasoning benchmarks demonstrate that PMPO outperforms strong baselines.
- Abstract(参考訳): グループベース強化学習はGRPOの算術平均からGMPOの幾何学平均へと進化してきた。
GMPOは保守的な目的を制約することで安定性を向上させるが、GRPOと基本的な制限は共通している。
本研究では,これらの手法をPMPO(Power-Mean Policy Optimization, Power-Mean Policy Optimization, PMPO)の下で統一する。
このフレームワーク内では、GRPOとGMPOが特別なケースとして回収される。
理論的には、pの調整は勾配更新の集中を調節し、それらの有利な寄与に基づいてトークンを効果的に再重み付けすることを示した。
p を適応的に決定するために,Clip-aware Effective Sample Size (ESS) 機構を導入する。
具体的には,軌道クリッピング率を対象のESSにマッピングする決定論的ルールを提案する。
そして、この対象と軌跡誘導ESSを一致させるために、特定のpを解く。
これによりPMPOは、信頼できる軌道に対する攻撃的な算術平均と不安定な軌道に対する保守的な幾何学平均とを動的に遷移することができる。
複数の数学的推論ベンチマークの実験は、PMPOが強いベースラインより優れていることを示した。
関連論文リスト
- Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF [0.0]
大規模言語モデルアライメントの目的はしばしば、PPO、DPO、IPO、およびそれらの変種といった、異なるアルゴリズムの集合として提示される。
この研究において、この多様性はより単純な基盤構造を曖昧にしていると論じる。
この絡み合いは、単にモデリングの利便性ではなく、体系的な不安定性の源であることを示す。
論文 参考訳(メタデータ) (2026-01-18T13:57:44Z) - Geometric-Mean Policy Optimization [117.05113769757172]
グループ相対政策最適化(GRPO)は,大規模言語モデルの推論能力を大幅に向上させた。
GRPOは、不利な重要度重み付けされた報酬を持つトークンに直面すると、不安定なポリシー更新に悩まされる。
本稿では,GRPOの安定性を向上させるために,トークン報酬の出力を抑えることにより,GMPO(Geometric-Mean Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization [63.107398132743825]
Group Contrastive Policy Optimization(GCPO)は、2つの重要なイノベーションを特徴とする新しい強化学習フレームワークである。
我々はGeometryZeroを開発した。GeometryZeroは、手頃なサイズの幾何学的推論モデルで、補助的な建設をいつ行うべきかを判断する。
論文 参考訳(メタデータ) (2025-06-08T14:18:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。