論文の概要: One Ring to Rule Them All: Unifying Group-Based RL via Dynamic Power-Mean Geometry
- arxiv url: http://arxiv.org/abs/2601.22521v1
- Date: Fri, 30 Jan 2026 03:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.204124
- Title: One Ring to Rule Them All: Unifying Group-Based RL via Dynamic Power-Mean Geometry
- Title(参考訳): グループベースのRLを動的パワー平均幾何で統一する一環
- Authors: Weisong Zhao, Tong Wang, Zichang Tan, Te Yang, Siran Peng, Haoyuan Zhang, Tianshuo Zhang, Haichao Shi, Meng Meng, Yang Yang, Xiangyu Zhu, Zhen Lei, Xiao-Yu Zhang, Xu Zhou,
- Abstract要約: グループベース強化学習はGRPOの算術平均からGMPOの幾何学平均へと進化してきた。
我々はこれらのアプローチを,集約幾何学をパラメータ化する一般化されたフレームワークであるPMPO(Power-Mean Policy Optimization)の下で統一する。
我々は,p調整が勾配更新の濃度を調節し,その利点に基づいてトークンを効果的に再重み付けすることを示した。
- 参考スコア(独自算出の注目度): 40.539393367855176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group-based reinforcement learning has evolved from the arithmetic mean of GRPO to the geometric mean of GMPO. While GMPO improves stability by constraining a conservative objective, it shares a fundamental limitation with GRPO: reliance on a fixed aggregation geometry that ignores the evolving and heterogeneous nature of each trajectory. In this work, we unify these approaches under Power-Mean Policy Optimization (PMPO), a generalized framework that parameterizes the aggregation geometry via the power-mean geometry exponent p. Within this framework, GRPO and GMPO are recovered as special cases. Theoretically, we demonstrate that adjusting p modulates the concentration of gradient updates, effectively reweighting tokens based on their advantage contribution. To determine p adaptively, we introduce a Clip-aware Effective Sample Size (ESS) mechanism. Specifically, we propose a deterministic rule that maps a trajectory clipping fraction to a target ESS. Then, we solve for the specific p to align the trajectory induced ESS with this target one. This allows PMPO to dynamically transition between the aggressive arithmetic mean for reliable trajectories and the conservative geometric mean for unstable ones. Experiments on multiple mathematical reasoning benchmarks demonstrate that PMPO outperforms strong baselines.
- Abstract(参考訳): グループベース強化学習はGRPOの算術平均からGMPOの幾何学平均へと進化してきた。
GMPOは保守的な目的を制約することで安定性を向上させるが、GRPOと基本的な制限は共通している。
本研究では,これらの手法をPMPO(Power-Mean Policy Optimization, Power-Mean Policy Optimization, PMPO)の下で統一する。
このフレームワーク内では、GRPOとGMPOが特別なケースとして回収される。
理論的には、pの調整は勾配更新の集中を調節し、それらの有利な寄与に基づいてトークンを効果的に再重み付けすることを示した。
p を適応的に決定するために,Clip-aware Effective Sample Size (ESS) 機構を導入する。
具体的には,軌道クリッピング率を対象のESSにマッピングする決定論的ルールを提案する。
そして、この対象と軌跡誘導ESSを一致させるために、特定のpを解く。
これによりPMPOは、信頼できる軌道に対する攻撃的な算術平均と不安定な軌道に対する保守的な幾何学平均とを動的に遷移することができる。
複数の数学的推論ベンチマークの実験は、PMPOが強いベースラインより優れていることを示した。
関連論文リスト
- Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Spherical Steering: Geometry-Aware Activation Rotation for Language Models [15.078810641141295]
推論時ステアリングは、言語モデル(LM)をトレーニングのコストなしで制御するための有望なパラダイムとして登場した。
本研究では,活性化回転によりこのトレードオフを解消する訓練不要プリミティブである球状ステアリングについて検討する。
本手法は,信号の完全性を保ちながら,測地線に沿って目標方向に向かって活性化を回転させ,目標概念に向けての活性化を誘導する。
論文 参考訳(メタデータ) (2026-02-09T00:15:47Z) - Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF [0.0]
大規模言語モデルアライメントの目的はしばしば、PPO、DPO、IPO、およびそれらの変種といった、異なるアルゴリズムの集合として提示される。
この研究において、この多様性はより単純な基盤構造を曖昧にしていると論じる。
この絡み合いは、単にモデリングの利便性ではなく、体系的な不安定性の源であることを示す。
論文 参考訳(メタデータ) (2026-01-18T13:57:44Z) - Geometric-Mean Policy Optimization [117.05113769757172]
グループ相対政策最適化(GRPO)は,大規模言語モデルの推論能力を大幅に向上させた。
GRPOは、不利な重要度重み付けされた報酬を持つトークンに直面すると、不安定なポリシー更新に悩まされる。
本稿では,GRPOの安定性を向上させるために,トークン報酬の出力を抑えることにより,GMPO(Geometric-Mean Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - CP$^2$: Leveraging Geometry for Conformal Prediction via Canonicalization [51.716834831684004]
幾何データシフトにおける共形予測(CP)の問題について検討する。
本稿では,幾何的ポーズなどの幾何学的情報を統合することを提案する。
論文 参考訳(メタデータ) (2025-06-19T10:12:02Z) - GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization [63.107398132743825]
Group Contrastive Policy Optimization(GCPO)は、2つの重要なイノベーションを特徴とする新しい強化学習フレームワークである。
我々はGeometryZeroを開発した。GeometryZeroは、手頃なサイズの幾何学的推論モデルで、補助的な建設をいつ行うべきかを判断する。
論文 参考訳(メタデータ) (2025-06-08T14:18:15Z) - Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning [12.987019067098412]
我々は、強化学習(RL)における政策最適化に、祝福されたネステロフの加速勾配(NAG)法を適応する。
i) $tildeO (1/t2)$, (ii) $O(e-ct)$, (ii) $O(e-ct)$。
論文 参考訳(メタデータ) (2023-10-18T11:33:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。