論文の概要: MCPO: Mastery-Consolidated Policy Optimization for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2604.16972v1
- Date: Sat, 18 Apr 2026 11:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.267814
- Title: MCPO: Mastery-Consolidated Policy Optimization for Large Reasoning Models
- Title(参考訳): MCPO:大規模推論モデルのためのマスタリー統合政策最適化
- Authors: Zhaokang Liao, Yingguo Gao, Yi Yang, Yongheng Hu, Jingting Ding,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を改善するための有望なアプローチとして登場した。
RLVRアルゴリズムの中で、グループ相対ポリシー最適化(GRPO)とその変種は高い性能と高い訓練効率を示している。
本稿では, (i) マスタードプロンプトにのみ適用されるヒンジ-KL正規化器を導入し, (ii) 多数修正プロンプトを優先して最適化作業を改善する重み付け機構を提案する。
- 参考スコア(独自算出の注目度): 9.387170139210427
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a promising approach to improve the reasoning abilities of Large Language Models (LLMs). Among RLVR algorithms, Group Relative Policy Optimization (GRPO) and its variants have demonstrated strong performance and high training efficiency. However, GRPO-style objectives exhibit two issues on high accuracy prompts including mastered prompts (rollout accuracy =1) and majority-correct prompts (rollout accuracy in (0.5,1)). For mastered prompts, group-relative advantages vanish, yielding no training signal and unconstrained policy drift that can cause forgetting. For majority-correct prompts, the induced query weight shrinks as accuracy increases, weakening consolidation from partial correctness to mastery. To alleviate this, we propose Mastery-Consolidated Policy Optimization (MCPO), which introduces (i) a hinge-KL regularizer applied exclusively to mastered prompts to bound harmful policy drift between successive gradient steps, and (ii) a weighting mechanism that prioritizes majority-correct prompts to better allocate optimization effort. Extensive experiments across three mathematical benchmarks demonstrate that MCPO consistently improves pass@1 performance. Counter-intuitively, rather than restricting exploration, MCPO boosts pass@k metrics, indicating that mastery consolidation further catalyzes solution diversity.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を改善するための有望なアプローチとして登場した。
RLVRアルゴリズムの中で、グループ相対ポリシー最適化(GRPO)とその変種は高い性能と高い訓練効率を示している。
しかし、GRPOスタイルの目的は、マスターされたプロンプト(ロールアウト精度=1)と多数修正プロンプト(0.5,1)を含む高精度プロンプトの2つの問題を示す。
マスタードプロンプトでは、グループ相対的なアドバンテージが消滅し、トレーニング信号や制約のないポリシードリフトが発生しず、忘れてしまう可能性がある。
多数正のプロンプトでは、精度が向上するにつれてクエリの重みが減少し、部分的正しさから熟度への統合が弱まる。
これを軽減するため,我々はMDPO(Mastery-Consolidated Policy Optimization)を提案する。
一 マスタードプロンプトに専用に適用されるヒンジ−KL正規化器で、連続した勾配ステップ間で有害な政策ドリフトを束縛し、
(ii)最適化作業をより適切に割り当てるために、多数正当なプロンプトを優先する重み付け機構。
3つの数学的なベンチマークによる大規模な実験は、MCPOが常にpass@1パフォーマンスを改善していることを示している。
MCPOは探索を制限する代わりに、pass@kメトリクスを強化し、熟成の統合がソリューションの多様性をさらに触媒することを示している。
関連論文リスト
- Are complicated loss functions necessary for teaching LLMs to reason? [0.16383644639245779]
グループ相対政策最適化は、大規模言語モデル(LLM)において有望であることを示す。
ReINFORCE with Group Relative Advantage (RGRA) は、グループ相対的優位性を保ちつつ、PPOスタイルのクリッピングとポリシー比の項を除去する単純化された変種である。
以上の結果から,よりシンプルなREINFORCEベースのアプローチはLLMの推論を効果的に促進し,GRPOのより透明で効率的な代替手段を提供する可能性が示唆された。
論文 参考訳(メタデータ) (2026-03-19T11:06:49Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - DaGRPO: Rectifying Gradient Conflict in Reasoning via Distinctiveness-Aware Group Relative Policy Optimization [20.66452395111739]
識別性を考慮したグループ相対ポリシー最適化(DaGRPO)を提案する。
DaGRPOは,(1)微粒なスコアリングを利用して,低差別性でサンプルペアを動的にマスキングするシーケンスレベルのグラディエント・リクティフィケーション,(2)高品質なアンカーを導入し,課題に対処するためのトレーニング信号の復元を行うオフ・ポリシー・データ・アジュメンテーションという2つのコアメカニズムを取り入れている。
詳細な分析により、DaGRPOは勾配の爆発を効果的に軽減し、長鎖推論能力の出現を加速することを確認した。
論文 参考訳(メタデータ) (2025-12-06T07:51:36Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - GVPO: Group Variance Policy Optimization for Large Language Model Post-Training [19.005045649097987]
群変数ポリシー最適化(GVPO)は、KL制約された報酬を直接重みに含める分析解である。
GVPOには2つの大きな利点がある: ユニークな最適解、正確にはKL制約の報酬目的、および柔軟なサンプリング分布をサポートする。
GVPOは、理論的な保証を実用的適応性で統一することにより、信頼性と汎用性を備えたLLMポストトレーニングのための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-28T09:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。