論文の概要: Adaptive Negative Reinforcement for LLM Reasoning:Dynamically Balancing Correction and Diversity in RLVR
- arxiv url: http://arxiv.org/abs/2605.07137v1
- Date: Fri, 08 May 2026 02:13:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.742164
- Title: Adaptive Negative Reinforcement for LLM Reasoning:Dynamically Balancing Correction and Diversity in RLVR
- Title(参考訳): LLM推論のための適応的負の強化:RLVRにおける動的バランシング補正と多様性
- Authors: Yash Ingle, Jaival Chauhan, Ankit Yadav, Sudhakar Mishra,
- Abstract要約: 検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力向上に有効な方法となっている。
最近の研究では、NSR(Negative Sample Reinforcement)がPPOやGRPOのようなより複雑なフレームワークのパフォーマンスに適合または超えることが示されている。
我々は,NSRフレームワークの拡張として,適応型負のサンプル強化と信頼度重み付き負の強化の2つを提案する。
- 参考スコア(独自算出の注目度): 6.291433683451589
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a highly effective method for improving the reasoning abilities of Large Language Models (LLMs). Recent research shows that Negative Sample Reinforcement (NSR) -- which focuses on penalizing incorrect steps rather than simply rewarding correct ones -- can match or even exceed the performance of more complex frameworks like PPO and GRPO across the entire Pass@k spectrum. However, current NSR techniques usually apply a fixed penalty throughout the training process and treat every incorrect response with the same weight. To address these limitations, we propose two extensions to the NSR framework: Adaptive Negative Sample Reinforcement. Rather than using a fixed update rule, A-NSR uses time-dependent scheduling functions. In the initial training phases, the system focuses heavily on correcting errors to stabilize the model. As training continues, it shifts toward more subtle and controlled updates. We also introduce Confidence-Weighted Negative Reinforcement, which operates on the principle that different mistakes carry different levels of importance. CW-NSR assigns specific penalty weights based on the model's normalized sequence likelihood. If the model is highly confident in a wrong path, it receives a larger penalty and for uncertain errors -- where the model is effectively exploring -- are penalized less strictly. Our formal analysis shows how these mechanisms govern token-level updates, allowing the model to leverage prior-guided probability redistribution while providing a natural defense against overfitting. We evaluated these methods on difficult reasoning datasets, including MATH, AIME 2025, and AMC23, using the Qwen2.5-Math-1.5B architecture.
- Abstract(参考訳): 検証可能な報酬(RLVR)を用いた強化学習は,Large Language Models (LLMs) の推論能力向上に有効な方法となっている。
最近の研究によると、NSR(Negative Sample Reinforcement)は、Pass@kスペクトル全体にわたって、PPOやGRPOのようなより複雑なフレームワークのパフォーマンスにマッチしたり、超えたりすることができる。
しかしながら、現在のNSR技術は通常、トレーニングプロセス全体を通して一定のペナルティを適用し、すべての誤った反応を同じ重さで処理する。
これらの制限に対処するため、我々はNSRフレームワークの拡張としてAdaptive Negative Sample Reinforcementという2つの拡張を提案する。
固定更新ルールを使用する代わりに、A-NSRは時間依存のスケジューリング関数を使用する。
最初のトレーニングフェーズでは、モデルを安定させるためにエラーを修正することに重点を置いている。
トレーニングが進むにつれて、より微妙でコントロールされたアップデートへと移行する。
我々はまた、異なる誤りが異なるレベルの重要性を持つという原則に基づいて機能する信頼-重み付き負の強化も導入する。
CW-NSRは、モデルの正規化シーケンスの確率に基づいて、特定のペナルティ重みを割り当てる。
モデルが間違ったパスに非常に自信を持っていれば、より大きなペナルティを受け取り、モデルが効果的に探索している不確実なエラーに対して、厳格に罰せられることはない。
我々の公式な分析は、これらのメカニズムがトークンレベルの更新をどのように管理するかを示し、モデルが過剰適合に対する自然な防御を提供しながら、事前誘導された確率再分配を活用できるようにする。
我々はこれらの手法を,Qwen2.5-Math-1.5Bアーキテクチャを用いて,MATH,AIME 2025,AMC23などの難解な推論データセットを用いて評価した。
関連論文リスト
- Curvature-Guided LoRA: Steering in the pretrained NTK subspace [60.35296431630704]
本稿では,PEFTを用いて得られた予測器と,出力レベルにおける完全微調整の予測器との整合性を考慮した予測アライメント問題を提案する。
我々は、この目的が自然に、ニュートンのような、曲率ホワイトの勾配に対応する最適な低ランク更新を行う、曲率対応の2階定式化につながることを示した。
この知見に基づいて、局所曲率情報を用いて適応方向を選択し、スケールする曲率誘導LoRA(CG-LoRA)を提案する。
論文 参考訳(メタデータ) (2026-03-31T14:46:39Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - Save the Good Prefix: Precise Error Penalization via Process-Supervised RL to Enhance LLM Reasoning [59.76691952347156]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なフレームワークとして登場した。
既存のRLアプローチの多くは疎結果報酬に依存しており、部分的に成功した解では正しい中間段階を信用できない。
本稿では、PRMを用いてRL中の最初のエラーをローカライズする検証済み事前修正ポリシー最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2026-01-26T21:38:20Z) - STABLE: Gated Continual Learning for Large Language Models [0.0]
STABLEは、シーケンシャルな更新時に忘れることを制限する、ゲート付き連続的なセルフ編集フレームワークである。
各候補編集は3つの指標のうちの1つを用いて安定性の予算に対して評価される。
Qwen-2.5-7Bモデルの実験では、ゲーティングは適応性を保ちながら忘れを効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-10-17T16:14:05Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。