論文の概要: Mitigating Think-Answer Mismatch in LLM Reasoning Through Noise-Aware Advantage Reweighting
- arxiv url: http://arxiv.org/abs/2508.05928v1
- Date: Fri, 08 Aug 2025 01:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.04285
- Title: Mitigating Think-Answer Mismatch in LLM Reasoning Through Noise-Aware Advantage Reweighting
- Title(参考訳): 騒音対応アドバンテージリウェイトによるLLM推論における思考応答ミスマッチの緩和
- Authors: Si Shen, Peijun Shen, Wenhua Zhao, Danhao Zhu,
- Abstract要約: Group-Relative Policy Optimization (GRPO) は、大規模な推論モデルをトレーニングするための重要なテクニックである。
emphThink-Answer Mismatchというノイズの多い報奨信号が学習プロセスを損なうという致命的な脆弱性に悩まされている。
S-GRPO(Stable Group-Relative Policy Optimization, S-GRPO)を提案する。
- 参考スコア(独自算出の注目度): 0.7365798659670144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group-Relative Policy Optimization (GRPO) is a key technique for training large reasoning models, yet it suffers from a critical vulnerability: the \emph{Think-Answer Mismatch}, where noisy reward signals corrupt the learning process. This problem is most severe in unbalanced response groups, paradoxically degrading the signal precisely when it should be most informative. To address this challenge, we propose Stable Group-Relative Policy Optimization (S-GRPO), a principled enhancement that derives optimal, noise-aware advantage weights to stabilize training. Our comprehensive experiments on mathematical reasoning benchmarks demonstrate S-GRPO's effectiveness and robustness. On various models, S-GRPO significantly outperforms DR. GRPO, achieving performance gains of +2.5% on Qwen-Math-7B-Base, +2.2% on Llama-3.2-3B-Base, and +2.4% on Qwen-Math-1.5B-Instruct. Most critically, while standard GRPO fails to learn under 20% synthetic reward noise, S-GRPO maintains stable learning progress. These results highlight S-GRPO's potential for more robust and effective training of large-scale reasoning models. \footnote{Code and data are available at: https://github.com/shenpeijun0212/S-GRPO
- Abstract(参考訳): Group-Relative Policy Optimization(GRPO)は、大きな推論モデルをトレーニングする上で重要なテクニックであるが、重大な脆弱性に悩まされている。
この問題は、不均衡な応答群において最も深刻であり、最も情報的であるべきタイミングで信号がパラドックス的に劣化する。
この課題に対処するため,安定グループ相対政策最適化(S-GRPO)を提案する。
S-GRPOの有効性とロバスト性を示す数学的推論ベンチマークに関する総合的な実験を行った。
S-GRPOは、Qwen-Math-7B-Baseで+2.5%、Llama-3.2-3B-Baseで+2.2%、Qwen-Math-1.5B-Instructで+2.4%である。
もっとも重要なことは、標準のGRPOは20%の合成報酬ノイズ以下では学習できないが、S-GRPOは安定した学習の進行を維持することである。
これらの結果はS-GRPOの大規模推論モデルのより堅牢で効果的なトレーニングの可能性を強調している。
https://github.com/shenpeijun0212/S-GRPO
関連論文リスト
- Geometric-Mean Policy Optimization [122.95205388291987]
グループ相対政策最適化(GRPO)の安定化版を提案する。
算術平均を最適化する代わりに、GMPOはトークンレベルの報酬の幾何学平均を最大化する。
GMPO-7Bは安定性の向上に加えて、複数の数学ベンチマークでは平均4.1%、マルチモーダル推論ベンチマークでは1.4%でGRPOを上回っている。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - On-Policy RL with Optimal Reward Baseline [109.47676554514193]
On-Policy RL with Optimal reward baseline (OPO) は、新しい簡易強化学習アルゴリズムである。
OPOは、訓練プロセスを実証的に安定化し、探索を強化する、正確なオンライントレーニングの重要性を強調している。
その結果、OPOの優れた性能と訓練安定性を、追加のモデルや正規化条件なしで示すことができた。
論文 参考訳(メタデータ) (2025-05-29T15:58:04Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO [21.369307672809366]
グループ相対政策最適化(GRPO)は、グループ内のすべてのサンプル応答が正しくない場合に停止する。
GRPOにおける全負サンプルグループ内の応答多様性をAIフィードバックを用いて導入するフレームワークを提案する。
提案手法を実証的に検証し,様々なモデルサイズにまたがる性能向上を示す。
論文 参考訳(メタデータ) (2025-05-16T18:02:05Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z) - Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach [2.8626097661711394]
ヒューマンフィードバックからの強化学習は、ステアリングモデルにおいて顕著な成功を収めてきたが、複雑で不安定である可能性がある。
直接選好最適化(DPO)のような最近のアプローチは、好みに基づく微調整を単純化するが、バイアスや特定の目的のトレードオフをもたらす可能性がある。
安全かつ整合性のある言語生成を実現するために,多ラベル報酬回帰モデルを用いたグループ相対政策最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-26T05:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。