論文の概要: ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.00380v1
- Date: Fri, 01 May 2026 03:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.838295
- Title: ResRL: Boosting LLM Reasoning via Negative Sample Projection Residual Reinforcement Learning
- Title(参考訳): ResRL: 負のサンプル投影残差強化学習によるLLM推論の促進
- Authors: Zihan Lin, Xiaohan Wang, Jie Cao, Jiajun Chai, Li Wang, Xiaodong Lu, Wei Lin, Ran He, Guojun Yin,
- Abstract要約: RLVRによる強化学習は大規模言語モデル(LLM)の推論を強化する
本稿では,正と負の応答間で類似した意味分布を分離する,正のサンプル投影Residual Reinforcement Learning (ResRL)を提案する。
- 参考スコア(独自算出の注目度): 60.411097231348975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) enhances reasoning of Large Language Models (LLMs) but usually exhibits limited generation diversity due to the over-incentivization of positive rewards. Although methods like Negative Sample Reinforcement (NSR) mitigate this issue by upweighting penalty from negative samples, they may suppress the semantic distributions shared between positive and negative responses. To boost reasoning ability without losing diversity, this paper proposes negative sample projection Residual Reinforcement Learning (ResRL) that decouples similar semantic distributions among positive and negative responses. We theoretically link Lazy Likelihood Displacement (LLD) to negative-positive head-gradient interference and derive a single-forward proxy that upper-bounds representation alignment to guide conservative advantage reweighting. ResRL then projects negative-token hidden representations onto an SVD-based low-rank positive subspace and uses projection residuals to modulate negative gradients, improving reasoning while preserving diversity and outperforming strong baselines on average across twelve benchmarks spanning Mathematics, Code, Agent Tasks, and Function Calling. Notably, ResRL surpasses NSR on mathematical reasoning by 9.4\% in Avg@16 and 7.0\% in Pass@128. Code is available at https://github.com/1229095296/ResRL.git.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、Large Language Models (LLM) の推論を強化するが、通常、肯定的な報酬の過大なインセンティブのため、限られた世代多様性を示す。
負のサンプル強化(NSR)のような手法は、負のサンプルからペナルティを重み付けすることでこの問題を軽減するが、正と負の応答間で共有される意味分布を抑えることができる。
本稿では,多様性を損なうことなく推論能力を高めるために,正および負の応答間で類似した意味分布を分離する残留強化学習(Residual Reinforcement Learning, ResRL)の負のサンプル投影を提案する。
理論的には Lazy Likelihood Displacement (LLD) を負の正の頭部勾配干渉にリンクし、上界の配向を上界の配向に導出し、保守的な優位性の再重み付けを導出する一方向のプロキシを導出する。
ResRLは、SVDベースの低ランクの正のサブスペースに負のトーンな隠れ表現を投影し、プロジェクション残差を使用して負の勾配を変調し、多様性を維持しながら推論を改善し、数学、コード、エージェントタスク、関数呼び出しを含む12のベンチマークで平均的に強いベースラインを上回ります。
特にResRLは、Avg@16で9.4\%、Pass@128で7.0\%の数学的推論でNSRを上回っている。
コードはhttps://github.com/1229095296/ResRL.gitで入手できる。
関連論文リスト
- What If Consensus Lies? Selective-Complementary Reinforcement Learning at Test Time [57.533031432715084]
TTRL(Test-Time Reinforcement Learning)は、Large Language Models(LLM)が、ラベルのないテストストリームの推論能力を向上することを可能にする。
既存のTTRL法は、正の擬似ラベル戦略にのみ依存している。
本研究では,ラベル雑音増幅を効果的に緩和する堅牢なテスト時間強化学習フレームワークであるSCRLを提案する。
論文 参考訳(メタデータ) (2026-03-20T11:47:12Z) - Don't Waste Mistakes: Leveraging Negative RL-Groups via Confidence Reweighting [24.822152032771736]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルを改善するための標準的なレシピとなっている。
負の集団は、余分な監督なしに活用できることが示される。
論文 参考訳(メタデータ) (2025-10-09T18:01:44Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z) - Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization [37.8788435790632]
大規模言語モデル(LLM)は、AIの役割に革命をもたらしたが、潜在的な社会的リスクをもたらしている。
既存の方法は高品質な正負の訓練ペアに依存しており、ノイズの多い正の反応に悩まされており、負の反応とほとんど区別できない。
本稿では,非参照応答と生成した非負応答との差を最大化する分散参照最適化(D$2$O)を提案する。
論文 参考訳(メタデータ) (2024-03-06T03:02:38Z) - Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - Debiased Contrastive Learning of Unsupervised Sentence Representations [88.58117410398759]
コントラスト学習は、事前訓練された言語モデル(PLM)を改善し、高品質な文表現を導き出すのに有効である。
以前の作業は、主にランダムにトレーニングデータからバッチ内陰性またはサンプルを採用する。
我々はこれらの不適切な負の影響を軽減するための新しいフレームワーク textbfDCLR を提案する。
論文 参考訳(メタデータ) (2022-05-02T05:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。