論文の概要: M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization
- arxiv url: http://arxiv.org/abs/2512.13070v1
- Date: Mon, 15 Dec 2025 08:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.57805
- Title: M-GRPO: Stabilizing Self-Supervised Reinforcement Learning for Large Language Models with Momentum-Anchored Policy Optimization
- Title(参考訳): M-GRPO:Momentum-Anchored Policy Optimizationを用いた大規模言語モデルの自己改善強化学習の安定化
- Authors: Bizhe Bai, Hongming Wu, Peng Ye, Tao Chen,
- Abstract要約: 自己教師付き強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための有望なアプローチを示す
従来の手法では,長期のトレーニングにおいて,パフォーマンスが急激に低下する「政治崩壊」という,致命的な障害モードに悩まされていることがわかった。
我々は、ゆっくりと進化する運動量モデルを利用して安定したトレーニングターゲットを提供するフレームワークであるM-GRPOを紹介する。
また,低エントロピートラジェクトリを動的に振る舞うIQR(Interquartile Range)に基づく適応フィルタリング手法を提案する。
- 参考スコア(独自算出の注目度): 9.358876832727239
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised reinforcement learning (RL) presents a promising approach for enhancing the reasoning capabilities of Large Language Models (LLMs) without reliance on expensive human-annotated data. However, we find that existing methods suffer from a critical failure mode under long-horizon training: a "policy collapse" where performance precipitously degrades. We diagnose this instability and demonstrate that simply scaling the number of rollouts -- a common strategy to improve performance -- only delays, but does not prevent, this collapse. To counteract this instability, we first introduce M-GRPO (Momentum-Anchored Group Relative Policy Optimization), a framework that leverages a slowly evolving momentum model to provide a stable training target. In addition, we identify that this process is often accompanied by a rapid collapse in policy entropy, resulting in a prematurely confident and suboptimal policy. To specifically address this issue, we propose a second contribution: an adaptive filtering method based on the interquartile range (IQR) that dynamically prunes low-entropy trajectories, preserving essential policy diversity. Our extensive experiments on multiple reasoning benchmarks demonstrate that M-GRPO stabilizes the training process while the IQR filter prevents premature convergence. The combination of these two innovations leads to superior training stability and state-of-the-art performance.
- Abstract(参考訳): 自己教師付き強化学習(RL)は,高額な人文データに依存しない大規模言語モデル(LLM)の推論能力を高めるための,有望なアプローチを提案する。
しかし, 従来の手法は, 長期訓練において重大な障害モードに悩まされていることが判明した。
私たちはこの不安定さを診断し、単にロールアウトの数を拡大する — パフォーマンスを改善するための一般的な戦略 -- が遅延するのみであり、この崩壊を防ぐものではないことを実証します。
この不安定性に対処するために、我々はまずM-GRPO(Momentum-Anchored Group Relative Policy Optimization)を導入する。
さらに、このプロセスは、しばしば政策エントロピーの急激な崩壊を伴い、早々に自信と準最適政策をもたらすと認識する。
そこで本研究では,低エントロピートラジェクトリを動的に引き起こし,基本方針の多様性を保ちながら適応フィルタリング手法を提案する。
M-GRPOはトレーニング過程を安定化し, IQRフィルタは早期収束を防ぐ。
これら2つのイノベーションを組み合わせることで、トレーニングの安定性と最先端のパフォーマンスが向上します。
関連論文リスト
- Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models [11.295986905174635]
ルールベース強化学習(RL)は、ルールベース報酬を用いた言語モデル(LM)の推論能力を改善した。
既存のRLメソッドは、大きなポリシー更新と不適切なクリッピングがトレーニングの崩壊につながるような、トレーニングの不安定さに悩まされることが多い。
本稿では,政策学習の安定化を目的とした新しいアルゴリズムCPGDを提案する。
論文 参考訳(メタデータ) (2025-05-18T17:44:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。