論文の概要: Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.04066v2
- Date: Thu, 07 May 2026 04:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.558267
- Title: Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning
- Title(参考訳): 改良LDM推論のためのアダプティブパワー平均ポリシー最適化
- Authors: Yiming Huang, Zhenbo Shi, Shuzheng Gao, Cuiyun Gao, Peiyi Han, Chuanyi Liu,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるための重要なパラダイムである。
既存のメソッドは通常、モデルの進化する推論能力に悪影響を及ぼす静的ポリシー最適化スキームに依存します。
本稿では,PMPO (Power-Mean Policy Optimization) とFAC (Feedback-Adaptive Clipping) の2つの主要なイノベーションを含む適応的電力量政策最適化 (APMPO) を提案する。
- 参考スコア(独自算出の注目度): 25.337475849019842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is an essential paradigm that enhances the reasoning capabilities of Large Language Models (LLMs). However, existing methods typically rely on static policy optimization schemes that misalign with the model's evolving reasoning capabilities. To address this issue, we propose Adaptive Power-Mean Policy Optimization (APMPO), which comprises two main innovations: Power-Mean Policy Optimization (PMPO) and Feedback-Adaptive Clipping (FAC). Specifically, PMPO introduces a generalized power-mean objective. This enables the model to adaptively transition from the signal-amplifying behavior of the arithmetic mean to the consistency-enforcing behavior of the geometric mean. FAC adaptively adjusts clipping bounds based on real-time reward statistics to overcome the limitations of static mechanisms. Capitalizing on these innovations, APMPO improves learning dynamics and reasoning performance. Extensive experiments on nine datasets across three reasoning tasks showcase the superiority of APMPO over state-of-the-art RLVR-based baselines. For instance, APMPO boosts the average Pass@1 score on mathematical reasoning benchmarks by 3.0 points compared to GRPO when using Qwen2.5-3B-Instruct.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLM) の推論能力を高める重要なパラダイムである。
しかし、既存のメソッドは通常、モデルの進化する推論能力に悪影響を及ぼす静的ポリシー最適化スキームに依存している。
本稿では,PMPO (Power-Mean Policy Optimization) とFAC (Feedback-Adaptive Clipping) の2つの主要なイノベーションを含む適応的パワー平均政策最適化(Adaptive Power-Mean Policy Optimization, APMPO)を提案する。
具体的には、PMPOは一般化されたパワー平均目的を導入する。
これにより、モデルが算術平均の信号増幅挙動から幾何学平均の一貫性増強挙動へ適応的に遷移することが可能になる。
FACは、静的メカニズムの制限を克服するために、リアルタイム報酬統計に基づいてクリッピング境界を適応的に調整する。
これらのイノベーションを活かして、APMPOは学習のダイナミクスと推論のパフォーマンスを改善します。
3つの推論タスクにわたる9つのデータセットの大規模な実験は、最先端のRLVRベースのベースラインよりもAPMPOの方が優れていることを示している。
例えば、APMPOはQwen2.5-3B-Instructを使用すると、数学推論ベンチマークの平均Pass@1スコアをGRPOに比べて3.0ポイント向上する。
関連論文リスト
- Meta-Learned Adaptive Optimization for Robust Human Mesh Recovery with Uncertainty-Aware Parameter Updates [0.27998963147546146]
そこで本研究では,テスト時間改善時に不確実性を認識した適応更新を組み込むメタラーニングフレームワークを提案する。
提案手法は,MPJPEを3DPWで10.3,Human3.6Mで8.0削減し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-27T14:16:21Z) - ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning [32.8666744273094]
textbfOnline textbfRollout textbfAdaptation, textbfADORA (textbfAdvantage textbfDynamics via textbfOnline textbfRollout textbfAdaptation)を導入する。
論文 参考訳(メタデータ) (2026-02-10T17:40:39Z) - AceGRPO: Adaptive Curriculum Enhanced Group Relative Policy Optimization for Autonomous Machine Learning Engineering [52.67783579040657]
AceGRPOは、エージェントの学習フロンティアにおけるタスクを優先順位付けして学習効率を最大化する機械学習システムである。
我々のトレーニングされたAce-30Bモデルは、MLE-Bench-Lite上で100%有効な応募率を実現し、プロプライエタリなフロンティアモデルの性能にアプローチし、より大きなオープンソースベースラインを上回ります。
論文 参考訳(メタデータ) (2026-02-08T10:55:03Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Multi-Objective Reward and Preference Optimization: Theory and Algorithms [3.316593788543852]
この論文は、制御、嗜好学習、大規模言語モデルのアライメントを越えて制約付き強化学習(RL)を進める理論的枠組みとアルゴリズムを開発する。
ACPO, e-COP, warmPref-PS, PSPL, MOPOは, 平均コスト, エピソード, 嗜好駆動のパラダイムでRLを推し進める。
集合的に、論文はRLを平均的コスト、エピソード、および嗜好駆動のパラダイムで統一し、理論的な進歩と、安全で整合した意思決定のための実践的なツールを提供する。
論文 参考訳(メタデータ) (2025-12-11T12:51:21Z) - Model-Based Policy Adaptation for Closed-Loop End-to-End Autonomous Driving [54.46325690390831]
本稿では,事前学習したE2E運転エージェントのロバスト性と安全性を高めるための汎用フレームワークとして,モデルベースポリシー適応(MPA)を提案する。
MPAは、ジオメトリ一貫性のあるシミュレーションエンジンを用いて、まず様々な対物軌道を生成する。
MPAは拡散ベースのポリシーアダプタを訓練し、基本方針の予測を洗練させ、Q値モデルを多段階に分けて長期的な結果を評価する。
論文 参考訳(メタデータ) (2025-11-26T17:01:41Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - AM-PPO: (Advantage) Alpha-Modulation with Proximal Policy Optimization [0.0]
本稿では、動的非線形スケーリング機構を用いて利点推定を適応的に変調するPPOの新たな拡張であるAdvantage Modulation PPO(AM-PPO)を紹介する。
AM-PPOは、勾配の更新を安定させ、方針勾配のランドスケープの条件付けを改善するために、利点信号を再確認する。
これらの知見は、強化学習最適化の強化に広く応用できる手法として、有利な変調の可能性を示している。
論文 参考訳(メタデータ) (2025-05-21T13:38:45Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。