論文の概要: NGRPO: Negative-enhanced Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.18851v1
- Date: Tue, 23 Sep 2025 09:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.803786
- Title: NGRPO: Negative-enhanced Group Relative Policy Optimization
- Title(参考訳): NGRPO: 負の強化グループ相対的政策最適化
- Authors: Gongrui Nan, Siye Chen, Jing Huang, Mengyu Lu, Dexun Wang, Chunmei Xie, Weiqi Xiong, Xianzhou Zeng, Qixuan Zhou, Yadong Li, Xingzhong Xu,
- Abstract要約: 代表的RLVRアルゴリズムであるGRPOは、グループ内の全ての応答が完全に正しいか完全に間違っている場合、臨界的な制限に悩まされる。
これは、GRPO の優位関数が 0 の値を生成する等質的不正確な群に対して特に問題となる。
等質な誤りを頑健な学習信号に変換するアルゴリズムであるNGRPOを提案する。
- 参考スコア(独自算出の注目度): 8.641009168869195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RLVR has enhanced the reasoning capabilities of Large Language Models (LLMs) across various tasks. However, GRPO, a representative RLVR algorithm, suffers from a critical limitation: when all responses within a group are either entirely correct or entirely incorrect, the model fails to learn from these homogeneous responses. This is particularly problematic for homogeneously incorrect groups, where GRPO's advantage function yields a value of zero, leading to null gradients and the loss of valuable learning signals. To overcome this issue, we propose NGRPO (Negative-enhanced Group Relative Policy Optimization), an algorithm designed to convert homogeneous errors into robust learning signals. First, NGRPO introduces Advantage Calibration. This mechanism hypothesizes the existence of a virtual maximum-reward sample during advantage calculation, thereby altering the mean and variance of rewards within a group and ensuring that the advantages for homogeneously incorrect samples are no longer zero. Second, NGRPO employs Asymmetric Clipping, which relaxes the update magnitude for positive samples while imposing stricter constraints on that of negative samples. This serves to stabilize the exploration pressure introduced by the advantage calibration. Our experiments on Qwen2.5-Math-7B demonstrate that NGRPO significantly outperforms baselines such as PPO, GRPO, DAPO, and PSR-NSR on mathematical benchmarks including MATH500, AMC23, and AIME2025. These results validate NGRPO's ability to learn from homogeneous errors, leading to stable and substantial improvements in mathematical reasoning. Our code is available at https://github.com/nangongrui-ngr/NGRPO.
- Abstract(参考訳): RLVRは、様々なタスクにわたるLarge Language Models(LLM)の推論機能を強化した。
しかし、代表的RLVRアルゴリズムであるGRPOは、グループ内の全ての応答が完全に正しいか完全に間違っている場合、モデルがこれらの同種応答から学ばないという限界に悩まされている。
これは、GRPOの優位関数が0の値となり、ヌル勾配と貴重な学習信号が失われる等質的に不正確な群にとって特に問題となる。
この問題を解決するために,同種エラーを頑健な学習信号に変換するアルゴリズムであるNGRPO(Negative-enhanced Group Relative Policy Optimization)を提案する。
まず、NGRPOはAdvantage Calibrationを導入する。
このメカニズムは、優位計算中に仮想的な最大回帰サンプルの存在を仮定し、それによって群内の報酬の平均と分散を変化させ、同次不均一なサンプルの利点がもはやゼロにならないことを保証する。
第二に、NGRPOは非対称クリッピング(英語版)を採用し、正のサンプルに対する更新の程度を緩和し、負のサンプルに対するより厳密な制約を課す。
これは、有利なキャリブレーションによってもたらされる探査圧力を安定させるのに役立つ。
Qwen2.5-Math-7B実験により,PPO,GRPO,DAPO,PSR-NSRなどのベースラインをMATH500,AMC23,AIME2025といった数式ベンチマークで比較したところ,NGRPOは有意に優れていた。
これらの結果は、NGRPOが均一な誤りから学習する能力を評価し、数学的推論において安定かつ実質的な改善をもたらす。
私たちのコードはhttps://github.com/nangongrui-ngr/NGRPO.comで公開されています。
関連論文リスト
- Single-stream Policy Optimization [21.214853668053234]
SPO(Single-stream Policy Optimization)を導入する。
SPOはグループ単位のベースラインを永続的なKL適応値トラッカーに置き換え、バッチ全体にわたってメリットを標準化する。
グループフリーであるため、SPOはより高いスループットと、長い水平またはツール統合された設定で効果的にスケールすることができる。
論文 参考訳(メタデータ) (2025-09-16T16:39:11Z) - Uncalibrated Reasoning: GRPO Induces Overconfidence for Stochastic Outcomes [55.2480439325792]
強化学習(Reinforcement Learning, RL)は、数学のような検証可能な決定論的領域において、言語モデルの精度を向上させるために著しく有効であることが証明されている。
本稿では,現在のRL法が,科学的実験のような検証可能な領域における言語モデルの最適化にも有効かどうかを検討する。
論文 参考訳(メタデータ) (2025-08-15T20:50:53Z) - Mitigating Think-Answer Mismatch in LLM Reasoning Through Noise-Aware Advantage Reweighting [0.7365798659670144]
Group-Relative Policy Optimization (GRPO) は、大規模な推論モデルをトレーニングするための重要なテクニックである。
emphThink-Answer Mismatchというノイズの多い報奨信号が学習プロセスを損なうという致命的な脆弱性に悩まされている。
S-GRPO(Stable Group-Relative Policy Optimization, S-GRPO)を提案する。
論文 参考訳(メタデータ) (2025-08-08T01:24:06Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である
本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。
差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T11:08:32Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。