論文の概要: Holder Policy Optimisation
- arxiv url: http://arxiv.org/abs/2605.12058v2
- Date: Thu, 21 May 2026 13:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.396444
- Title: Holder Policy Optimisation
- Title(参考訳): ホルダー政策最適化
- Authors: Yuxiang Chen, Dingli Liang, Yihang Chen, Ziqin Gong, Chenyang Le, Zhaokai Wang, Jiachen Zhu, Lingyu Yang, Jianghao Lin, Weinan Zhang, Jun Wang,
- Abstract要約: textbfHlderPOは、一般的なポリシー最適化フレームワークである。
トークンレベルの確率アグリゲーションをHlder平均を介して統一する。
複数の数学ベンチマークにおいて、最先端の平均精度は54.9%である。
- 参考スコア(独自算出の注目度): 26.521180498291717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimisation (GRPO) enhances large language models by estimating advantages across a group of sampled trajectories. However, mapping these trajectory-level advantages to policy updates requires aggregating token-level probabilities within each sequence. Relying on a fixed aggregation mechanism for this step fundamentally limits the algorithm's adaptability. Empirically, we observe a critical trade-off: certain fixed aggregations frequently suffer from training collapse, while others fail to yield satisfactory performance. To resolve this, we propose \textbf{HölderPO}, a generalised policy optimisation framework unifying token-level probability aggregation via the Hölder mean. By explicitly modulating the parameter $p$, our framework provides continuous control over the trade-off between gradient concentration and variance bounds. Theoretically, we prove that a larger $p$ concentrates the gradient to amplify sparse learning signals, whereas a smaller $p$ strictly bounds gradient variance. Because no static configuration can universally resolve this concentration-stability trade-off, we instantiate the framework with a dynamic annealing algorithm that progressively schedules $p$ across the training lifecycle. Extensive evaluations demonstrate superior stability and convergence over existing baselines. Specifically, our approach achieves a state-of-the-art average accuracy of $54.9\%$ across multiple mathematical benchmarks, yielding a substantial $7.2\%$ relative gain over standard GRPO and secures an exceptional $93.8\%$ success rate on ALFWorld.
- Abstract(参考訳): Group Relative Policy Optimisation (GRPO)は、サンプルトラジェクトリのグループ間での利点を推定することによって、大きな言語モデルを強化する。
しかし、これらの軌道レベルの利点をポリシー更新にマッピングするには、各シーケンス内のトークンレベルの確率を集約する必要がある。
このステップの固定アグリゲーション機構を頼りにすることで、アルゴリズムの適応性を根本的に制限する。
固定的なアグリゲーションはトレーニングの崩壊に悩まされることが多いが、他のアグリゲーションは満足なパフォーマンスを得ることができない。
これを解決するために、Hölder平均を通じてトークンレベルの確率アグリゲーションを統一する一般化されたポリシー最適化フレームワークである \textbf{HölderPO} を提案する。
パラメータ $p$ を明示的に調整することにより、我々のフレームワークは勾配濃度と分散境界の間のトレードオフを連続的に制御する。
理論的には、より大きい$p$がグラデーションに集中してスパース学習信号を増幅するのに対し、小さい$p$はグラデーション分散を厳密に束縛する。
静的な構成では、この濃度-安定性のトレードオフを普遍的に解決できないため、トレーニングライフサイクル全体で徐々に$p$をスケジュールする動的アニールアルゴリズムを用いて、フレームワークをインスタンス化する。
広範囲な評価は、既存のベースラインよりも優れた安定性と収束を示す。
具体的には、複数の数学ベンチマークにおいて、最先端の平均精度は54.9 %で、標準GRPOよりも実質的な7.2 % の相対的なゲインを達成し、ALFWorldにおける例外的な9,3.8 % の成功率を確保する。
関連論文リスト
- Rethinking Importance Sampling in LLM Policy Optimization: A Cumulative Token Perspective [22.848847562976633]
トークンレベルのIS比は、PPOとGRPOが採用しているように、プレフィックス状態の分布ミスマッチを無視してバイアスを導入する。
我々は、累積トークンIS比と、累積対数比の自然な$sqrtt$成長に応じて、対数空間のクリップ境界を拡大する位置適応クリッピングを組み合わせたCTPOを提案する。
論文 参考訳(メタデータ) (2026-05-08T06:35:02Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs [19.079556051442168]
強化学習(Reinforcement Learning, RL)は、推論タスクにおける大規模言語モデルの改善に広く用いられている。
しかし、REINFORCE や GRPO のような広く採用されている批判のない政策段階的手法では、高い非同期性によって政策段階的推定器は明らかにノイズを生じさせる。
本稿では,REINFORCE/GRPOスタイルのアルゴリズムの安定化手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T18:40:51Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。