論文の概要: LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards
- arxiv url: http://arxiv.org/abs/2603.02146v1
- Date: Mon, 02 Mar 2026 18:07:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.022122
- Title: LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards
- Title(参考訳): LongRLVR: 検証可能なコンテキストリワードを必要とするLong-Context Reinforcement Learning
- Authors: Guanzheng Chen, Michael Qizhe Shieh, Lidong Bing,
- Abstract要約: 我々は,疎解報酬を高密度で検証可能な文脈報酬で増強するためにLongRLVRを導入する。
この補助信号は、正しい接地情報を選択するためのモデルを直接インセンティブ化する。
LongRLVRは、すべてのモデルとベンチマークで標準のRLVRよりも一貫して、大幅に優れています。
- 参考スコア(独自算出の注目度): 51.45138356629732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capabilities of Large Language Models (LLMs) by optimizing them against factual outcomes. However, this paradigm falters in long-context scenarios, as its reliance on internal parametric knowledge is ill-suited for tasks requiring contextual grounding--the ability to find and reason over externally provided information. We identify a key reason for this failure: a reward based solely on the final answer is too sparse to effectively guide the model for identifying relevant evidence. We formally prove that the outcome-only reward leads to significant vanishing gradients for the context grounding process, rendering learning intractable. To overcome this bottleneck, we introduce LongRLVR to augment the sparse answer reward with a dense and verifiable context reward. This auxiliary signal directly incentivizes the model for selecting the correct grounding information, providing a robust learning gradient that solves the underlying optimization challenge. We validate our method on challenging long-context benchmarks using Qwen and LLaMA models. LongRLVR consistently and significantly outperforms the standard RLVR across all models and benchmarks, e.g., boosting a 14B model's scores on RULER-QA from 73.17 to 88.90 and on LongBench v2 from 39.8 to 46.5. Our work demonstrates that explicitly rewarding the grounding process is a critical and effective strategy for unlocking the full reasoning potential of LLMs in long-context applications. Our code is available at https://github.com/real-absolute-AI/LongRLVR.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLM)の推論能力を,現実的な結果に対して最適化することによって大幅に向上した。
しかし、このパラダイムは、内的パラメトリック知識への依存が文脈的根拠を必要とするタスク、すなわち外部から提供された情報を見つけ出し、推論する能力に不適であるため、長いコンテキストのシナリオで失敗する。
最終回答のみに基づく報酬は、関係する証拠を特定するためにモデルを効果的に導くには不十分です。
我々は、結果のみの報酬が文脈基底過程の顕著な消失勾配につながることを正式に証明し、学習を難解にレンダリングする。
このボトルネックを克服するために、疎解報酬を高密度で検証可能なコンテキスト報酬で増強するLongRLVRを導入する。
この補助信号は、正しい接地情報を選択するためのモデルに直接インセンティブを与え、基礎となる最適化課題を解決する頑健な学習勾配を提供する。
我々はQwenモデルとLLaMAモデルを用いて、長文のベンチマークに挑戦する手法を検証する。
例えば、RULER-QAのスコアは73.17から88.90に、LongBench v2は39.8から46.5に向上した。
我々の研究は、LLMの長期的応用における完全な推論可能性の解き放つ上で、グラウンド化プロセスに明示的に報いることが重要かつ効果的な戦略であることを実証している。
私たちのコードはhttps://github.com/real-absolute-AI/LongRLVRで利用可能です。
関連論文リスト
- ContextRL: Enhancing MLLM's Knowledge Discovery Efficiency with Context-Augmented RL [64.77036363086519]
本稿では,これらのボトルネックを克服するためにコンテキスト拡張を利用する新しいフレームワークContextRLを提案する。
提案手法は,プロセス検証のきめ細やかな検証によって偽陽性を除去し,完全な参照ソリューションをコンテキストとして提供する。
また,前述した全負の集団からの正解を「回収」する方針を導いて,報酬モデルが失敗に対する誤報を生成するマルチターンサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2026-02-26T04:55:57Z) - Beyond Correctness: Learning Robust Reasoning via Transfer [51.403609251508904]
我々は単純な哲学的見解を採用するが、堅牢な推論はそれを作った心を超えて有用であるべきである。
本稿では,トランスファーブル・リワードを用いた強化学習を紹介し,トランスファーブル・リワードによるロバストネスの運用について述べる。
提案手法は,最終回答精度を向上しながらサンプリング一貫性を向上し,ほぼ少ないトレーニングステップで同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-09T10:41:44Z) - Document Reconstruction Unlocks Scalable Long-Context RLVR [60.74632963522131]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の機能強化(長文)のための重要なパラダイムとなっている。
我々は,LLMの長期的文脈能力を高めるための教師なしのアプローチについて検討し,重度の人的アノテーションや教師モデルの監督の必要性を排除した。
提案手法の有効性をRULERとLongBenchv2の2つのベンチマークで検証した。
論文 参考訳(メタデータ) (2026-02-09T03:23:23Z) - Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning [82.91265691530351]
A$2$Dは、検証可能な報酬による強化学習の有効性を高めるための適応能力分解手法である。
まず、蒸留なしでRLVRを介して分解器を訓練し、複雑な質問を単純なサブクエストの集合に分解する。
次に、このデコンパイラを使用して、トレーニングデータセットの各質問に対するサブクエストをアノテートし、サブクエストガイダンスを用いてRLVR下での推論をトレーニングする。
論文 参考訳(メタデータ) (2026-01-31T14:48:23Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning [3.437656066916039]
Reinforcement with Verifiable Rewards (RLVR)は、そのような機能を強化するための有望なアプローチとして登場した。
完全検証解の2つの問題についてRLVRについて検討する。
RLVRは評価基準を改善するが、しばしば新たな推論戦略を得るよりも、表層学習指標を強化することで改善する。
論文 参考訳(メタデータ) (2025-10-30T23:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。