論文の概要: Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs
- arxiv url: http://arxiv.org/abs/2603.22446v1
- Date: Mon, 23 Mar 2026 18:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.13476
- Title: Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs
- Title(参考訳): Sparse but critical: A Token-Level Analysis of DistributionalShifts in RLVR Fine-Tuning of LLMs
- Authors: Haoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)における推論を大幅に改善した。
本研究は,RLVRの分布効果に関する系統的研究である。
RLファインチューニングは, 基数とRLポリシーの間に有意なばらつきを示すトークン分布のごく一部で, 高度にスパースかつ目標となる変化を誘発することがわかった。
- 参考スコア(独自算出の注目度): 65.76530158565903
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has significantly improved reasoning in large language models (LLMs), yet the token-level mechanisms underlying these improvements remain unclear. We present a systematic empirical study of RLVR's distributional effects organized around three main analyses: (1) token-level characterization of distributional shifts between base and RL models, (2) the impact of token-level distributional shifts on sequence-level reasoning performance through cross-sampling interventions, and (3) fine-grained mechanics of these shifts at the token level. We find that RL fine-tuning induces highly sparse and targeted changes, with only a small fraction of token distributions exhibiting meaningful divergence between the base and RL policies. We further characterize the structure and evolution of these shifts through analyses of token entropy, positional concentration, and reallocation of probability mass. To assess the functional importance of these sparse changes, we conduct cross-sampling experiments that selectively swap token choices between the base and RL models with varying intervention budgets. We show that inserting only a small fraction of RL-sampled tokens into base generations progressively recovers RL performance gains, while injecting a similarly small number of base token choices into otherwise RL-generated sequences collapses performance to base levels, isolating a small set of token-level decisions directly responsible for RLVR's performance gains. Finally, we explore divergence-weighted variants of the advantage signal as a diagnostic intervention, finding that they can yield improvements over baselines. Together, our results shed light on the distributional changes induced by RLVR and provide a fine-grained, token-level lens for understanding RLVR fine-tuning as a targeted refinement process.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)における推論を著しく改善しているが、これらの改善の基礎となるトークンレベルメカニズムはいまだ不明である。
本稿では,(1)ベースモデルとRLモデル間の分布シフトのトークンレベル特性,(2)クロスサンプリング介入によるシーケンスレベル推論性能に対するトークンレベル分布シフトの影響,(3)トークンレベルでのこれらのシフトのきめ細かい力学,の3つの分析を中心に,RLVRの分布効果の体系的実証的研究を行う。
RLファインチューニングは, 基数とRLポリシーの間に有意なばらつきを示すトークン分布のごく一部で, 高度にスパースかつ目標となる変化を誘発することがわかった。
さらに、トークンエントロピー、位置集中、確率質量の自己配置の分析を通じて、これらのシフトの構造と進化を特徴づける。
これらのスパース変化の関数的重要性を評価するため、異なる介入予算を持つベースモデルとRLモデルの間でトークン選択を選択的に交換するクロスサンプリング実験を行った。
また,RLVRの性能向上に直接責任を負う少数のトークンレベル決定を分離し,RLVRの精度向上に直接責任を負うように,少数のRLサンプリングトークンのみをベース世代に挿入することで,RLVRの性能向上を徐々に回復させることを示す。
最後に、診断介入として有利信号のばらつき重み付き変種を探索し、ベースラインよりも改善できることを示した。
その結果,RLVRにより誘導される分布変化に光を当て,RLVR微細調整を目的とする精細化プロセスとして理解するための微細なトークンレベルレンズが得られた。
関連論文リスト
- On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation [81.29776444949539]
アップデートの方向性は、RLVRの効果を理解するためのより重要なレンズである、と我々は主張する。
我々の研究は、RLVRの分析と改善の鍵となる原則として変化の方向を確立する。
論文 参考訳(メタデータ) (2026-03-23T15:42:24Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - What does RL improve for Visual Reasoning? A Frankenstein-Style Analysis [23.904569857346605]
計算報酬による強化学習は、視覚言語モデルにおける視覚的推論を促進するための訓練後の標準的な段階となっている。
エンドツーエンドのベンチマークでは、複数の要因が明確化され、特定のスキルに改善を加えることが難しくなる。
本研究では, (i) 因果探索による関数的局所化, (ii) パラメータ比較による更新特性, (iii) モデルマージによる転送可能性テストを含むフランケンシュタイン型解析フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T20:44:27Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2025-10-10T11:25:33Z) - ASPO: Asymmetric Importance Sampling Policy Optimization [31.38346888572171]
ポジティブアドバンテージトークンのImportance Smpling(IS)比は不一致であり、正および負のトークンに対するアンバランストークン重み付けにつながる。
このミスマッチは、既に高確率のトークンを過剰に増幅しながら、低確率トークンの更新を抑制する。
我々は,IS比の正アドバンテージトークンを反転させるシンプルかつ効果的な戦略を用いた非対称的重要度サンプリングポリシー最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-10-07T15:54:24Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。