論文の概要: MMR-GRPO: Accelerating GRPO-Style Training through Diversity-Aware Reward Reweighting
- arxiv url: http://arxiv.org/abs/2601.09085v1
- Date: Wed, 14 Jan 2026 02:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.227064
- Title: MMR-GRPO: Accelerating GRPO-Style Training through Diversity-Aware Reward Reweighting
- Title(参考訳): MMR-GRPO:多様性を考慮した再加重によるGRPO-Styleトレーニングの高速化
- Authors: Kangda Wei, Ruihong Huang,
- Abstract要約: 本稿では,MMR-GRPOを提案する。
MMR-GRPOは、平均47.9%のトレーニングステップと70.2%のウォールクロック時間を必要とする一方で、同等のピークパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 18.222130019294852
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) has become a standard approach for training mathematical reasoning models; however, its reliance on multiple completions per prompt makes training computationally expensive. Although recent work has reduced the number of training steps required to reach peak performance, the overall wall-clock training time often remains unchanged or even increases due to higher per-step cost. We propose MMR-GRPO, which integrates Maximal Marginal Relevance to reweigh rewards based on completion diversity. Our key insight is that semantically redundant completions contribute limited marginal learning signal; prioritizing diverse solutions yields more informative updates and accelerates convergence. Extensive evaluations across three model sizes (1.5B, 7B, 8B), three GRPO variants, and five mathematical reasoning benchmarks show that MMR-GRPO achieves comparable peak performance while requiring on average 47.9% fewer training steps and 70.2% less wall-clock time. These gains are consistent across models, methods, and benchmarks. We will release our code, trained models, and experimental protocols.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO) は、数学的推論モデルをトレーニングするための標準的なアプローチとなっているが、その場合、即時に複数の完了に依存するため、計算コストがかかる。
近年の作業では、ピーク性能に達するために必要なトレーニングステップの数を削減しているが、全体的なウォールタイムトレーニング時間は、ステップ当たりのコストが高くなるため、変更される場合も少なくない。
本稿では,MMR-GRPOを提案する。
我々の重要な洞察は、意味的に冗長な完了が限られた限界学習信号に寄与することであり、多様なソリューションの優先順位付けにより、より情報的な更新が得られ、収束が加速する。
3つのモデルサイズ(1.5B, 7B, 8B)、3つのGRPO変種、および5つの数学的推論ベンチマークで、MMR-GRPOは平均47.9%のトレーニングステップと70.2%のウォールクロック時間を必要としながら、同等のピークパフォーマンスを達成した。
これらの利得はモデル、メソッド、ベンチマーク間で一貫しています。
コード、トレーニングされたモデル、実験的なプロトコルをリリースします。
関連論文リスト
- Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model [56.92219181993453]
本稿では,PPOやGRPOなどのオンラインRFT手法をオフ・ポリティクスデータに活用するために,Reincarnating Mix-policy Proximal Policy Gradient (ReMix)を提案する。
ReMix は,(1) 効率的なトレーニングのための更新データ(UTD)比が増大した混成政策勾配,(2) 安定性と柔軟性のトレードオフのバランスをとるためのKL-Convex 政策制約,(3) 効率的な早期学習から安定した改善へのシームレスな移行を実現するための政策再編成の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-07-09T14:29:45Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - CPPO: Accelerating the Training of Group Relative Policy Optimization-Based Reasoning Models [77.16976971950785]
本稿では、推論モデルの学習を高速化するために、CPPO(Completion Pruning Policy Optimization)を提案する。
CPPOは絶対的なアドバンテージを低く保ち、勾配計算や更新に必要な数を大幅に削減する。
実験の結果、CPPOはGSM8Kで最大7.98タイム、Mathで3.48タイムで最大7.48タイム、オリジナルのGRPOと比較して精度を保っている。
論文 参考訳(メタデータ) (2025-03-28T11:30:05Z) - Entropy-Regularized Process Reward Model [43.09203393852343]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。