論文の概要: Gradient Starvation in Binary-Reward GRPO: Why Group-Mean Centering Fails and Why the Simplest Fix Works
- arxiv url: http://arxiv.org/abs/2605.07689v1
- Date: Fri, 08 May 2026 12:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.053475
- Title: Gradient Starvation in Binary-Reward GRPO: Why Group-Mean Centering Fails and Why the Simplest Fix Works
- Title(参考訳): バイナリリワードGRPOにおけるグラディエント飢餓 : なぜグループ平均中心が機能しないのかと、なぜ最も簡単な固定が機能するのか
- Authors: Wenhua Nie, Jianan Wu, Junlin Liu, Ziwei Li, Zheng Lin, Zhang Zijian, Yilong Fan, Haoran Zheng, Jyh-Shing Roger Jang,
- Abstract要約: Group Relative Policy Optimization (GRPO) は、検証可能な報酬からの強化学習のための標準アルゴリズムである。
我々は、真の退化率は、常にジェンセンの不等式によるベルヌーイ予想を超えることを証明している。
固定参照符号の利点である$A=2r-1$は、グループ内の少なくとも1つのサンプルが成功する確率を高めて、pass@$G$失敗降下を実行することを示す。
- 参考スコア(独自算出の注目度): 19.92945464084119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) is a standard algorithm for reinforcement learning from verifiable rewards, but its group-mean-centered advantage can fail under binary rewards. The failure mode is gradient starvation: when every response in a group is correct or every response is wrong, the centered advantage is exactly zero and the policy receives no learning signal. We prove that the true degeneracy rate always exceeds the i.i.d. Bernoulli prediction by Jensen's inequality, and observe a 0.69 degeneracy rate at group size four in logged Qwen3.5-9B GSM8K training. We then show that the fixed-reference Sign advantage, $A=2r-1$, performs pass@$G$ failure descent by increasing the probability that at least one sample in the group succeeds. On the full GSM8K test set across seven seeds, Sign reaches 73.8% accuracy versus 28.4% for standard normalized group-mean DrGRPO at group size four, a 45.4 point gain with $p<0.0001$. The effect is directionally consistent on Llama-3.1-8B and positive but underpowered on a MATH-500 transfer check. Pass@$k$ analysis indicates that the main benefit is search compression rather than large capacity expansion, aligning the empirical gains with recent RLVR ceiling observations.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO) は、検証可能な報酬から強化学習を行うための標準的なアルゴリズムであるが、グループ中心の利点は二項報酬で失敗する可能性がある。
グループ内のすべての応答が正しいか、あるいはすべての応答が間違っている場合、中央のアドバンテージは正確にゼロであり、ポリシーは学習信号を受け取らない。
我々は、真の退化率は、ジェンセンの不等式によるベルヌーイ予想を超えることを証明し、ログ化されたQwen3.5-9B GSM8Kトレーニングにおいて、グループサイズ4で0.69の退化率を観測する。
次に、固定参照符号の利点である$A=2r-1$が、グループ内の少なくとも1つのサンプルが成功する確率を高めてpass@$G$失敗降下を実行することを示す。
7つの種にまたがる全GSM8Kテストでは、Signは73.8%の精度で、標準正規化グループ平均DrGRPOは28.4%、グループサイズは4で45.4ポイント、$p<0.0001$に達した。
この効果はLlama-3.1-8Bでは方向整合性があり、MATH-500の転送チェックでは正の反力である。
Pass@$k$分析は、大きな容量拡張ではなく、検索圧縮が大きな利点であることを示し、最近のRLVR天井観測と実証的な利得を一致させている。
関連論文リスト
- Learning to Hint for Reinforcement Learning [51.46328710610512]
グループ相対政策最適化(GRPO)は、検証可能な報酬を伴う強化学習に広く用いられている。
GRPOは、グループ内のすべてのロールアウトが同じ報酬を受けると、しばしば有利な崩壊に苦しむ。
Hint Learning for Reinforcement Learning (HiLL)を提案する。
論文 参考訳(メタデータ) (2026-04-01T09:58:08Z) - FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization [84.58281577727566]
本稿では,大規模言語モデルにおける推論ボトルネックを克服する強化学習アルゴリズムであるFuture-KL Influenced Policy Optimization (FIPO)を提案する。
FIPOは、割引先KLの分岐をポリシー更新に組み込むことでこの問題に対処し、その後の軌道行動への影響に基づいてトークンを再重み付けする密集した有利な定式化を作成する。
Qwen2.5-32Bで評価され、FIPOは平均チェーン長を約4,000から10,000以上のトークンに拡張し、AIME 2024 Pass@1の精度を50.0%から58.0%に向上させた。
論文 参考訳(メタデータ) (2026-03-20T10:24:50Z) - F-GRPO: Don't Let Your Policy Learn the Obvious and Forget the Rare [9.330145357231462]
グループサイズの関数として、更新が希少な修正モードを欠く確率を導出する。
本稿では,高頻度プロンプトのダウンウェイトが更新されるFocal Losにインスパイアされた,難易度を考慮したアドバンテージスケーリング係数を提案する。
論文 参考訳(メタデータ) (2026-02-06T14:07:30Z) - Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing [21.946965363578087]
検証可能な報酬付き強化学習(RLVR)は、決定論的結果推論タスクにおいて、大規模言語モデルのトレーニングに有効である。
以前の研究によると、RLVRはプロンプトが少ないが、迅速な選択はトレーニング精度のばらつきにのみ基づくことが多い。
有効なミニバッチは、(i)信頼できる正のアンカーと(ii)稀な障害からの明確な負の学習信号の両方を提供するべきである。
論文 参考訳(メタデータ) (2026-02-03T12:17:25Z) - Transform-Augmented GRPO Improves Pass@k [50.3707071191733]
グループ相対政策最適化(GRPO)は推論を改善するために設計されたが、2つの障害モードによって状況が悪化する。
本稿では,各質問に対して意味論的に等価な変換変種を生成するTA-GRPO(Transform-Augmented GRPO)を提案する。
このプール化された計算は、元の質問が簡単すぎるか難しすぎる場合でも、混合報酬を保証する一方、多様なフレーズのトレーニングは、複数のソリューション戦略を促進する。
論文 参考訳(メタデータ) (2026-01-30T02:43:29Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting [24.822152032771736]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルを改善するための標準的なレシピとなっている。
負の集団は、余分な監督なしに活用できることが示される。
論文 参考訳(メタデータ) (2025-10-09T18:01:44Z) - C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning [54.705168477975384]
推論モデル学習のためのグループシーケンスポリシーグラディエント(GSPG)フレームワーク。
C$2$GSPGは、自信過剰を抑えながら推論性能を同時に向上させる。
論文 参考訳(メタデータ) (2025-09-27T05:24:51Z) - NGRPO: Negative-enhanced Group Relative Policy Optimization [8.641009168869195]
代表的RLVRアルゴリズムであるGRPOは、グループ内の全ての応答が完全に正しいか完全に間違っている場合、臨界的な制限に悩まされる。
これは、GRPO の優位関数が 0 の値を生成する等質的不正確な群に対して特に問題となる。
等質な誤りを頑健な学習信号に変換するアルゴリズムであるNGRPOを提案する。
論文 参考訳(メタデータ) (2025-09-23T09:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。