論文の概要: AGPO: Adaptive Group Policy Optimization with Dual Statistical Feedback
- arxiv url: http://arxiv.org/abs/2605.20722v1
- Date: Wed, 20 May 2026 05:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.488194
- Title: AGPO: Adaptive Group Policy Optimization with Dual Statistical Feedback
- Title(参考訳): AGPO:双対統計フィードバックによる適応的グループ政策最適化
- Authors: Miaobo Hu, Shuhao Hu, Bokun Wang, Ruohan Wang, Xin Wang, Xiaobo Guo, Daren Zha, Jun Xiao,
- Abstract要約: 本稿では,GRPOの批判のない改良であるAdaptive Group Policy Optimization (AGPO)を提案する。
AGPOは、(i)アダプティブクリッピング(adaptive clipping)、(i)アダプティブクリッピング(adaptive clipping)、(i)アダプティブ領域のサイズを報酬分散と歪、プローブ投票エントロピー、ポリシーエントロピー、ステップワイズKLドリフトから設定する。
9つの英語と中国語の数学/STEMベンチマークで、Qwen2.5-14BはAGPOで訓練され、PPO/GRPOを同じ予算で上回った。
- 参考スコア(独自算出の注目度): 23.471458230700776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning improves LLM reasoning, but PPO/GRPO typically use fixed clipping and decoding temperature, which makes training brittle and tuning-heavy. We propose Adaptive Group Policy Optimization (AGPO), a critic-free refinement of GRPO that uses group-level statistics to control both update magnitude and exploration. AGPO uses a shared probe-derived statistical state to drive two controllers: (i) adaptive clipping, which sets the trust-region size from reward dispersion and skewness, probe vote entropy, policy entropy, and step-wise KL drift; and (ii) bidirectional adaptive temperature sampling, which heats or cools decoding around a base temperature according to centered uncertainty relative to a running baseline. On nine English and Chinese math/STEM benchmarks, Qwen2.5-14B trained with AGPO outperforms PPO/GRPO under the same generated-token budget, reaching 67.3% on GSM8K and 40.5% on MATH. Gains transfer to Llama-3-8B and Gemma-2-9B, and ablations confirm both modules are complementary. Our implementation is publicly available at https://github.com/wandugu/paper_agpo.
- Abstract(参考訳): 強化学習はLLM推論を改善するが、PPO/GRPOは通常、固定クリッピングと復号温度を使用し、トレーニングの脆さとチューニングの重みを生じさせる。
本稿では,グループレベルの統計情報を用いて,更新の規模と探索の両面を制御したGRPOの批判のない改良であるAdaptive Group Policy Optimization (AGPO)を提案する。
AGPOは2つのコントローラを駆動するために、共有プローブ由来の統計状態を使用する。
一 報酬分散及び歪度、調査票エントロピー、政策エントロピー及びステップワイズKLドリフトから信頼領域サイズを設定する適応クリッピング
二 ランニングベースラインに対する中心不確実性に応じて、ベース温度を加熱又は冷却する双方向適応温度サンプリング。
英語と中国語の9つの数学/STEMベンチマークにおいて、Qwen2.5-14BはAGPOでトレーニングされ、PPO/GRPOを同じ予算で上回り、GSM8Kで67.3%、MATHで40.5%に達した。
Llama-3-8B と Gemma-2-9B に転移し、両方のモジュールが相補的であることを示す。
私たちの実装はhttps://github.com/wandugu/paper_agpo.comで公開されています。
関連論文リスト
- fg-expo: Frontier-guided exploration-prioritized policy optimization via adaptive kl and gaussian curriculum [11.537163059885687]
FG-ExPOは,Frontier-Guided Exploration-Prioritized Policy Optimizationの略である。
精度制御KLスケーリング(AKL)は、バッチ平均精度のスムーズな非線形関数により、KLのペナルティ強度を調整する。
我々は6つの主要な数学的推論ベンチマークでDeepSeek-R1-Distill-Qwen-1.5BとQwen3-8B-Baseの評価を行った。
論文 参考訳(メタデータ) (2026-05-12T01:48:48Z) - expo: Exploration-prioritized policy optimization via adaptive kl regulation and gaussian curriculum sampling [11.537163059885687]
2つの軽量プラグインモジュールを用いたExploration-Prioritized Policy Optimization (EXPO)を提案する。
我々は6つの数学的推論ベンチマークでDeepSeek-R1-Distill-Qwen-1.5BとQwen3-8B-Baseの実験を行った。
AIME 2025 pass@32では13.34で、63.33パーセントから76.67パーセントに上昇し、8Bモデルでは平均2.66でパス@32が改善されている。
論文 参考訳(メタデータ) (2026-05-11T03:19:04Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing [79.88256756334327]
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。
サンプル制御ポリシー最適化(SRPO)を提案する。
SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
論文 参考訳(メタデータ) (2026-04-02T17:29:18Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - Entropy-Gated Selective Policy Optimization:Token-Level Gradient Allocation for Hybrid Training of Large Language Models [18.084251607403406]
大規模言語モデルのハイブリッドトレーニング手法は、専門家によるデモンストレーションにおける教師付き微調整(SFT)とモデルロールアウトにおける強化学習(RL)を組み合わせる。
本稿では,トークンレベル勾配変調によるサンプルレベル混合を拡張する3段階フレームワークであるEntropy Gated Selective Policy Optimization (EGSPO)を提案する。
EGSPOは数学的推論ベンチマークにおいて一貫した改善を達成し、AIMEでは3.8%、CHORD phiベースラインでは2.9%、計算オーバーヘッドは3.4%に留まった。
論文 参考訳(メタデータ) (2026-02-03T09:38:21Z) - Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。