論文の概要: On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation
- arxiv url: http://arxiv.org/abs/2603.22117v1
- Date: Mon, 23 Mar 2026 15:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.757109
- Title: On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation
- Title(参考訳): LLM推論におけるRLVR更新の方向性:識別と爆発
- Authors: Kexin Huang, Haoming Meng, Junkang Wu, Jinda Lu, Chiyu Ma, Ziqian Chen, Xue Wang, Bolin Ding, Jiancan Wu, Xiang Wang, Xiangnan He, Guoyin Wang, Jingren Zhou,
- Abstract要約: アップデートの方向性は、RLVRの効果を理解するためのより重要なレンズである、と我々は主張する。
我々の研究は、RLVRの分析と改善の鍵となる原則として変化の方向を確立する。
- 参考スコア(独自算出の注目度): 81.29776444949539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has substantially improved the reasoning capabilities of large language models. While existing analyses identify that RLVR-induced changes are sparse, they primarily focus on the \textbf{magnitude} of these updates, largely overlooking their \textbf{direction}. In this work, we argue that the direction of updates is a more critical lens for understanding RLVR's effects, which can be captured by the signed, token-level log probability difference $Δ\log p$ between the base and final RLVR models. Through statistical analysis and token-replacement interventions, we demonstrate that $Δ\log p$ more effectively identifies sparse, yet reasoning-critical updates than magnitude-based metrics (\eg divergence or entropy). Building on this insight, we propose two practical applications: (1) a \textit{test-time extrapolation} method that amplifies the policy along the learned $Δ\log p$ direction to improve reasoning accuracy without further training; (2) a \textit{training-time reweighting} method that focuses learning on low-probability (corresponding to higher $Δ\log p$) tokens, which improves reasoning performance across models and benchmarks. Our work establishes the direction of change as a key principle for analyzing and improving RLVR.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は,大規模言語モデルの推論能力を大幅に向上させた。
既存の分析では、RLVRによって引き起こされる変化は少ないが、主にこれらの更新の \textbf{magnitude} に注目し、主にそれらの \textbf{direction} を見下ろしている。
本研究では,RLVRモデルと最終RLVRモデル間の符号付きトークンレベルのログ確率差$Δ\log p$により,更新方向がRLVRの効果を理解するためのより重要なレンズであると主張する。
統計解析とトークン置換の介入により、$Δ\log p$は、等級に基づく指標(偏差やエントロピー)よりも、スパースかつ推論クリティカルな更新をより効果的に識別することを示した。
この知見に基づいて,(1)学習した$Δ\log p$方向に沿ってポリシーを増幅して推論精度を向上させる \textit{test-time extrapolation} 法,(2)低確率(より高い$Δ\log p$に対応する)トークンの学習に焦点を当てた \textit{training-time reweighting} 法を提案する。
我々の研究は、RLVRの分析と改善の鍵となる原則として変化の方向を確立する。
関連論文リスト
- The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - The Reasoning Boundary Paradox: How Reinforcement Learning Constrains Language Models [31.773914661815393]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上のための重要な手法である。
最近の証拠は、拡張するのではなく、パラドックス的に推論境界を縮小する可能性があることを示唆している。
本稿では,RLVRの学習力学を解析することにより,RLVRの縮小問題を考察する。
論文 参考訳(メタデータ) (2025-10-02T17:17:27Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Stabilizing Knowledge, Promoting Reasoning: Dual-Token Constraints for RLVR [28.888781530351395]
本稿では,マルチトークン制約と同期更新を備えたエントロピー対応RLVRアプローチであるArcherを提案する。
いくつかの数学的推論およびコード生成ベンチマークの実験結果から,本手法が従来のRLVR法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-07-21T16:34:01Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。