論文の概要: Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting
- arxiv url: http://arxiv.org/abs/2510.08696v1
- Date: Thu, 09 Oct 2025 18:01:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.396074
- Title: Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting
- Title(参考訳): 失敗を無駄にしない - 信頼の再重み付けによる否定的RLグループの導入
- Authors: Yunzhen Feng, Parag Jain, Anthony Hartshorn, Yaqi Duan, Julia Kempe,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルを改善するための標準的なレシピとなっている。
負の集団は、余分な監督なしに活用できることが示される。
- 参考スコア(独自算出の注目度): 24.822152032771736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a standard recipe for improving large language models (LLMs) on reasoning tasks, with Group Relative Policy Optimization (GRPO) widely used in practice. Yet GRPO wastes substantial compute on negative groups: groups in which no sampled response is correct yield zero advantage and thus no gradient. We ask whether negative groups can be leveraged without extra supervision. Starting from a maximum-likelihood (MLE) objective in reward modeling, we show that the MLE gradient is equivalent to a policy gradient for a modified value function. This value function adds a confidence-weighted penalty on incorrect responses, imposing larger penalties on more confident mistakes. We refer to this as \textbf{L}ikelihood \textbf{E}stimation with \textbf{N}egative \textbf{S}amples (\textbf{LENS}). LENS modifies GRPO to assign non-zero, confidence-dependent rewards to incorrect generations, making negative groups informative and converting previously wasted samples into useful gradient updates. On the MATH benchmark with Llama-3.1-8B and Qwen-2.5-3B, the proposed variant consistently outperforms GRPO baseline, with significant gains on harder items. These results demonstrate a principled and practical way to "rescue" negative groups, improving efficiency and performance in RLVR.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)を推論タスクで改善するための標準的なレシピとなり、グループ相対政策最適化(GRPO)が実用化されている。
しかし GRPO は負の群に対して実質的な計算を無駄にしている: サンプル応答が正しくない群はゼロ優位であり、したがって勾配が存在しない。
余分な監督なしに否定的なグループを活用できるかどうかを問う。
報酬モデルにおける最大類似度(MLE)の目的から、MLE勾配は修正値関数のポリシー勾配と等価であることを示す。
この値関数は、誤った応答に対して自信の重み付けされたペナルティを追加し、より自信のあるミスに対してより大きな罰を与える。
これを \textbf{L}ikelihood \textbf{E}stimation with \textbf{N}egative \textbf{S}amples (\textbf{LENS}) と呼ぶ。
LENSはGRPOを修正し、非ゼロで信頼性に依存しない報酬を誤った世代に割り当てる。
Llama-3.1-8B と Qwen-2.5-3B による MATH のベンチマークでは、提案された変種はGRPO のベースラインを一貫して上回り、より難しい項目に大きく影響した。
これらの結果は、RLVRの効率と性能を改善し、ネガティブなグループを「救う」ための原則的で実践的な方法を示している。
関連論文リスト
- Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - NGRPO: Negative-enhanced Group Relative Policy Optimization [8.641009168869195]
代表的RLVRアルゴリズムであるGRPOは、グループ内の全ての応答が完全に正しいか完全に間違っている場合、臨界的な制限に悩まされる。
これは、GRPO の優位関数が 0 の値を生成する等質的不正確な群に対して特に問題となる。
等質な誤りを頑健な学習信号に変換するアルゴリズムであるNGRPOを提案する。
論文 参考訳(メタデータ) (2025-09-23T09:38:10Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [43.310209758380886]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - On the Effect of Negative Gradient in Group Relative Deep Reinforcement Optimization [52.76330545825083]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に人気がある。
従来認識されていなかった Lazy Likelihood Displacement (LLD) 現象を同定し, トレーニング中に正答率がわずかに増加するか, あるいは低下する可能性が示唆された。
従来のDPOベースのアプローチとは異なり、NTHRはGRPOのグループベースの構造を利用して、適切な応答をアンカーとして利用し、重要なトークンを識別する。
論文 参考訳(メタデータ) (2025-05-24T18:58:51Z) - Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning [41.83677588934301]
負のサンプル拡張(BCPG-NSA)による行動制約付きポリシーのグラディエントを提案する。
BCPG-NSA は,1) サンプルセグメンテーション,2) LLM と PRM を併用した合意に基づくステップ正当性評価,3) 正のステップを負のサンプル内で効果的にマイニングするNSA とのポリシー最適化の3段階を含む,詳細なオフラインフレームワークである。
実験の結果、BCPG-NSAは、同じトレーニングデータセットを使用して、いくつかの挑戦的な数学/コーディング推論ベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T14:16:49Z) - A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。
単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。
この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。