論文の概要: MC-GRPO: Median-Centered Group Relative Policy Optimization for Small-Rollout Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.22582v1
- Date: Fri, 30 Jan 2026 05:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.245718
- Title: MC-GRPO: Median-Centered Group Relative Policy Optimization for Small-Rollout Reinforcement Learning
- Title(参考訳): MC-GRPO:小人数強化学習のための中型グループ相対的政策最適化
- Authors: Youngeun Kim,
- Abstract要約: グループ相対ポリシー最適化手法は,プロンプト毎に複数のロールアウトを生成することで,言語モデルを訓練する。
ロールアウト予算が小さいリソース制約のある環境では、精度が低下することが多い。
我々は,小規模ロールアウト学習のためのシンプルかつ効果的なソリューションであるMC-GRPO(Median-Centered Group Relative Policy Optimization)を提案する。
- 参考スコア(独自算出の注目度): 11.456510890703994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group-relative policy optimization methods train language models by generating multiple rollouts per prompt and normalizing rewards with a shared mean reward baseline. In resource-constrained settings where the rollout budget is small, accuracy often degrades. We find that noise in the shared baseline induces advantage sign flips, where some rollouts receive an incorrect advantage sign, and the update direction is reversed. To address this, we propose Median-Centered Group Relative Policy Optimization (MC-GRPO), a simple and effective solution for small-rollout training. Our main idea is to replace the mean baseline with a median baseline: the median is far less sensitive to outlier rewards than the mean, mitigating the sign flips under small rollout size (G). We generate one additional rollout for median reference (G+1), and compute advantages by using the group median. With an odd-sized group, exactly one completion is the median and receives zero advantage, we exclude this pivot rollout from backpropagation so the number of gradient-contributing samples per prompt remains G, preserving the core update cost of standard G-rollout training. Across various GRPO-family methods and a wide range of models and scales, this median-centered training consistently improves stability and final accuracy in the low-rollout regime, reducing the gap between G=2 and G=8 to within 1%. Code is available at https://github.com/lotusroot-kim/MC-GRPO
- Abstract(参考訳): グループ相対ポリシー最適化手法は,各プロンプト毎に複数のロールアウトを生成し,平均報酬ベースラインを共有して報酬を正規化することにより,言語モデルを訓練する。
ロールアウト予算が小さいリソース制約のある環境では、精度が低下することが多い。
共有ベースラインのノイズは、いくつかのロールアウトが誤ったアドバンテージサインを受け取り、更新方向が逆になるような、アドバンストサインフリップを誘導する。
そこで本研究では,メディア中心型グループ相対政策最適化(MC-GRPO)を提案する。
我々の基本的な考え方は、平均ベースラインを中央値ベースラインに置き換えることです。中央値が平均値よりも外れ値報酬にはるかに敏感であり、小さなロールアウトサイズ(G)でサインフリップを緩和します。
我々は、中央値参照のための1つの追加ロールアウト(G+1)を生成し、グループ中央値を使用することで利点を計算した。
奇数サイズのグループでは、正確に1つの完了が中央値であり、ゼロ優位であるので、このピボットロールアウトはバックプロパゲーションから除外するので、プロンプト毎の勾配寄与サンプルの数はGのままであり、標準Gロールアウトトレーニングのコア更新コストは保たれる。
GRPOファミリーの様々な手法と幅広いモデルとスケールにおいて、この中央集中トレーニングは、低ロールアウト体制における安定性と最終精度を一貫して改善し、G=2とG=8のギャップを1%以内に減らした。
コードはhttps://github.com/lotusroot-kim/MC-GRPOで公開されている。
関連論文リスト
- Group Distributionally Robust Optimization-Driven Reinforcement Learning for LLM Reasoning [45.86058898829962]
Multi-Ad Distributionally Robust Optimization (GDRO)は、一様推論を超えて最適化第一のフレームワークである。
本稿では,EMA-debiased multiplicative-weight bandit samplerを用いて,周波数バイアスを伴わない集中的難易マージンと過度にハードなグループをターゲットとした2つの独立したGDROゲームと,グループ間のロールアウトをシャドウプライスコントローラで再配置し,固定平均予算下でのハードタスクの勾配分散低減を最大化するRollout-GDROを提案する。
Qを用いたDAPO 14.1kデータセット上でのフレームワークの検証
論文 参考訳(メタデータ) (2026-01-27T07:10:41Z) - DISCO Balances the Scales: Adaptive Domain- and Difficulty-Aware Reinforcement Learning on Imbalanced Data [65.09939942413651]
本稿では,グループ間不均衡と2つの重要なイノベーションに対処するGRPOの原理的拡張を提案する。
ドメイン対応報酬スケーリングは、ドメインの頻度に基づいて最適化を再重み付けすることで周波数バイアスに対処する。
難解な報酬のスケーリングは、学習価値を提供する不確実なプロンプトを特定し、優先順位付けするために、プロンプトレベルの自己整合性を活用する。
論文 参考訳(メタデータ) (2025-05-21T03:43:29Z) - Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.157278744897427]
グループ相対政策最適化(GRPO)は、グループ内の全ての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案された。
より適応的な利点推定モデルを用いて、KRPOはGRPOの安定性と性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-05-12T13:09:49Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - GROS: A General Robust Aggregation Strategy [49.1574468325115]
距離空間における推定器を組み合わせるための新しい、非常に一般的な、堅牢な手順が導入された。
最小化が標本を乗っ取ると、同じ(定数まで)準ガウス性が得られることを示す。
GROSの性能は5つのシミュレーション研究により評価した。
論文 参考訳(メタデータ) (2024-02-23T17:00:32Z) - Revisiting Rotation Averaging: Uncertainties and Robust Losses [51.64986160468128]
現在の手法の主な問題は、推定エピポーラを通して入力データと弱い結合しか持たない最小コスト関数である。
本稿では,点対応から回転平均化への不確実性を直接伝播させることにより,基礎となる雑音分布をモデル化することを提案する。
論文 参考訳(メタデータ) (2023-03-09T11:51:20Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。