論文の概要: The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning
- arxiv url: http://arxiv.org/abs/2506.01347v1
- Date: Mon, 02 Jun 2025 06:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.049535
- Title: The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning
- Title(参考訳): LLM推論における負の補強の効果について
- Authors: Xinyu Zhu, Mengzhou Xia, Zhepei Wei, Wei-Lin Chen, Danqi Chen, Yu Meng,
- Abstract要約: 検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
- 参考スコア(独自算出の注目度): 43.310209758380886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) is a promising approach for training language models (LMs) on reasoning tasks that elicit emergent long chains of thought (CoTs). Unlike supervised learning, it updates the model using both correct and incorrect samples via policy gradients. To better understand its mechanism, we decompose the learning signal into reinforcing correct responses and penalizing incorrect ones, referred to as Positive and Negative Sample Reinforcement (PSR and NSR), respectively. We train Qwen2.5-Math-7B and Qwen3-4B on a mathematical reasoning dataset and uncover a surprising result: training with only negative samples -- without reinforcing correct responses -- can be highly effective: it consistently improves performance over the base model across the entire Pass@$k$ spectrum ($k$ up to $256$), often matching or surpassing PPO and GRPO. In contrast, reinforcing only correct responses improves Pass@$1$ but degrades performance at higher $k$, due to reduced diversity. These inference-scaling trends highlight that solely penalizing incorrect responses may contribute more to performance than previously recognized. Through gradient analysis, we show that NSR works by suppressing incorrect generations and redistributing probability mass toward other plausible candidates, guided by the model's prior beliefs. It refines the model's existing knowledge rather than introducing entirely new behaviors. Building on this insight, we propose a simple variant of the RL objective that upweights NSR, and show that it consistently improves overall Pass@$k$ performance on MATH, AIME 2025, and AMC23. Our code is available at https://github.com/TianHongZXY/RLVR-Decomposed.
- Abstract(参考訳): Reinforcement Learning with verible rewards (RLVR) は、言語モデル(LM)を訓練するための有望なアプローチである。
教師付き学習とは異なり、ポリシー勾配によって正しいサンプルと間違ったサンプルの両方を使用してモデルを更新する。
そのメカニズムをよりよく理解するために、学習信号を分解して正しい応答を補強し、正と負のサンプル強化(PSR、NSR)と呼ばれる不正な応答を罰する。
数学的推論データセット上でQwen2.5-Math-7BとQwen3-4Bをトレーニングし、驚くべき結果を明らかにする。 正反応を補強することなく、負のサンプルのみを使用したトレーニングは、非常に効果的です。
対照的に、正しいレスポンスのみの強化はPass@$1$を改善するが、多様性の低下により、より高い$k$でパフォーマンスを低下させる。
これらの推論スケーリングの傾向は、不正な応答のみを罰することは、これまで認識されていたよりもパフォーマンスに寄与する可能性があることを強調している。
勾配解析により、NSRは不正確な世代を抑え、確率質量を他の確率的候補に向けて再分配することで機能し、モデルの以前の信念に導かれることを示す。
全く新しい振る舞いを導入するのではなく、モデルの既存の知識を洗練させる。
この知見に基づいて、NSRをアップウェイトするRL目的の単純な変形を提案し、MATH, AIME 2025, AMC23におけるPass@$$パフォーマンスを一貫して改善することを示す。
私たちのコードはhttps://github.com/TianHongZXY/RLVR-Decomposed.comで公開されています。
関連論文リスト
- The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason [36.50007948478452]
本研究では,報奨雑音が学習後の大規模言語モデルに与える影響について検討した。
その結果、LLMは相当な報酬雑音に対して強い強靭性を示すことがわかった。
本研究は,事前学習段階におけるモデルの基礎的能力の向上の重要性を示唆するものである。
論文 参考訳(メタデータ) (2025-05-28T17:59:03Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Learning Goal-Conditioned Representations for Language Reward Models [10.94845204766088]
対照的な$textitgoal-conditioned$でトレーニング報酬モデル(RM)を提案する。
RM表現のこのトレーニング方法により、textitsteerability$が向上し、特定の目標状態を達成するアクションの可能性を評価することができる。
さらに、これらの表現は、希望する将来の目標状態に条件付けすることで、きめ細かい制御を行うことができる。
論文 参考訳(メタデータ) (2024-07-18T20:23:11Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。