論文の概要: EBPO: Empirical Bayes Shrinkage for Stabilizing Group-Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.05165v1
- Date: Thu, 05 Feb 2026 00:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.687228
- Title: EBPO: Empirical Bayes Shrinkage for Stabilizing Group-Relative Policy Optimization
- Title(参考訳): EBPO:グループ相対的政策最適化のための経験的ベイズ削減
- Authors: Kevin Han, Yuhang Zhou, Mingze Gao, Gedi Zhou, Serena Li, Abhishek Kumar, Xiangjun Fan, Weiwei Li, Lizhu Zhang,
- Abstract要約: 経験的ベイズ政策最適化(EBPO)は、この政策の蓄積したグローバル統計から強みを借りることで、地域グループベースのベースラインを規則化する新しいフレームワークである。
EBPOは, 平均二乗誤差(MSE), 有界エントロピー崩壊, 非消滅ペナルティ信号の障害シナリオで厳格に低い値を保証する。
特に、EBPOは訓練安定性が優れ、小グループでも高性能なゲインを実現している。
- 参考スコア(独自算出の注目度): 21.901326490738242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for enhancing the reasoning capabilities of Large Language Models (LLMs). However, dominant approaches like Group Relative Policy Optimization (GRPO) face critical stability challenges: they suffer from high estimator variance under computational constraints (small group sizes) and vanishing gradient signals in saturated failure regimes where all responses yield identical zero rewards. To address this, we propose Empirical Bayes Policy Optimization (EBPO), a novel framework that regularizes local group-based baselines by borrowing strength from the policy's accumulated global statistics. Instead of estimating baselines in isolation, EBPO employs a shrinkage estimator that dynamically balances local group statistics with a global prior updated via Welford's online algorithm. Theoretically, we demonstrate that EBPO guarantees strictly lower Mean Squared Error (MSE), bounded entropy decay, and non-vanishing penalty signals in failure scenarios compared to GRPO. Empirically, EBPO consistently outperforms GRPO and other established baselines across diverse benchmarks, including AIME and OlympiadBench. Notably, EBPO exhibits superior training stability, achieving high-performance gains even with small group sizes, and benefits significantly from difficulty-stratified curriculum learning.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLM) の推論能力の向上に有効であることが証明されている。
しかし、GRPO(Group Relative Policy Optimization)のような支配的なアプローチは、計算制約(小グループサイズ)下での高い推定値の分散と、全ての応答が同じゼロ報酬を得られる飽和故障状態における勾配信号の消失という、決定的な安定性の課題に直面している。
そこで我々は,この政策の蓄積したグローバル統計から強みを借りて,地域グループベースのベースラインを標準化する新たなフレームワークである,経験的ベイズ政策最適化(EBPO)を提案する。
EBPOは、単独でベースラインを推定する代わりに、局所的なグループ統計をウェルフォードのオンラインアルゴリズムによって更新されたグローバルな事前更新と動的にバランスをとる縮小推定器を使用している。
理論的には,EBPOは平均二乗誤差(MSE),有界エントロピー崩壊,非消滅ペナルティ信号をGRPOと比較して厳格に低い値で保証する。
実証的に、EBPOは、AIMEやOlympiadBenchなど、さまざまなベンチマークでGRPOや他の確立したベースラインを一貫して上回っている。
特に、EBPOは訓練の安定性が向上し、小グループでも高性能なゲインを実現し、難易度の高いカリキュラム学習の恩恵を受けている。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - ETR: Outcome-Guided Elastic Trust Regions for Policy Optimization [6.716883192613149]
textbfElastic textbfTrust textbfETRを提案する。
ETRはGRPOを一貫して上回り、より優れた精度を実現し、政策エントロピー劣化を効果的に緩和する。
論文 参考訳(メタデータ) (2026-01-07T09:19:53Z) - DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training [45.777138699734024]
本稿では、条件付きリスク理論と分布値モデリングを組み合わせた新しいRLフレームワークであるDVPOを紹介し、ロバスト性と一般化のバランスを改善する。
DVPOはPPO、GRPO、ロバストなベルマンベースのPPOを常に上回っている。
論文 参考訳(メタデータ) (2025-12-03T14:48:38Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。