論文の概要: Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2510.00819v1
- Date: Wed, 01 Oct 2025 12:29:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.552824
- Title: Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning
- Title(参考訳): LLM推論におけるサンプル効率の良い強化学習のための政策勾配の安定化
- Authors: Luckeciano C. Melo, Alessandro Abate, Yarin Gal,
- Abstract要約: 強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
- 参考スコア(独自算出の注目度): 77.92320830700797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning, particularly through policy gradient methods, has played a central role in enabling reasoning capabilities of Large Language Models. However, the optimization stability of policy gradients in this setting remains understudied. As a result, existing implementations often resort to conservative hyperparameter choices to ensure stability, which requires more training samples and increases computational costs. Hence, developing models for reliably tracking the underlying optimization dynamics and leveraging them into training enables more sample-efficient regimes and further unleashes scalable post-training. We address this gap by formalizing the stochastic optimization problem of policy gradients with explicit consideration of second-order geometry. We propose a tractable computational framework that tracks and leverages curvature information during policy updates. We further employ this framework to design interventions in the optimization process through data selection. The resultant algorithm, Curvature-Aware Policy Optimization (CAPO), identifies samples that contribute to unstable updates and masks them out. Theoretically, we establish monotonic improvement guarantees under realistic assumptions. On standard math reasoning benchmarks, we empirically show that CAPO ensures stable updates under aggressive learning regimes where baselines catastrophically fail. With minimal intervention (rejecting fewer than 8% of tokens), CAPO achieves up to 30x improvement in sample efficiency over standard GRPO for LLM reasoning.
- Abstract(参考訳): 強化学習、特に政策勾配法による学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
しかし、この設定における政策勾配の最適化安定性については、まだ検討が続けられている。
結果として、既存の実装は、安定性を確保するために保守的なハイパーパラメータの選択を頼りにし、より多くのトレーニングサンプルを必要とし、計算コストを増大させる。
したがって、基礎となる最適化のダイナミクスを確実に追跡し、それらをトレーニングに活用するモデルを開発することは、よりサンプリング効率の良いレシエーションを可能にし、さらにスケーラブルなポストトレーニングを解き放ちます。
本稿では,2次幾何学を明示的に考慮した政策勾配の確率的最適化問題を定式化することによって,このギャップに対処する。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
さらに、このフレームワークを使用して、データ選択による最適化プロセスの介入を設計する。
結果として得られたアルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
理論的には、現実的な仮定の下で単調な改善を保証する。
標準的な算数推論のベンチマークでは、CAPOは破滅的に失敗する攻撃的な学習体制の下で安定した更新を保証することを実証的に示している。
最小の介入(トークンの8%を拒絶する)により、LCM推論の標準GRPOよりも最大で30倍の効率向上が達成される。
関連論文リスト
- ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - KIPPO: Koopman-Inspired Proximal Policy Optimization [4.46358470535211]
強化学習(RL)は様々な分野で大きな進歩を遂げてきた。
PPO(Proximal Policy)のような政策勾配法は、性能、安定性、計算効率のバランスのために人気を博している。
論文 参考訳(メタデータ) (2025-05-20T16:25:41Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。