論文の概要: The Path Not Taken: RLVR Provably Learns Off the Principals
- arxiv url: http://arxiv.org/abs/2511.08567v1
- Date: Wed, 12 Nov 2025 02:05:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.868249
- Title: The Path Not Taken: RLVR Provably Learns Off the Principals
- Title(参考訳): RLVRがプリンシパルから学ぶべき道
- Authors: Hanqing Zhu, Zhenyu Zhang, Hanxian Huang, DiJia Su, Zechun Liu, Jiawei Zhao, Igor Fedorov, Hamed Pirsiavash, Zhizhou Sha, Jinwon Lee, David Z. Pan, Zhangyang Wang, Yuandong Tian, Kai Sheng Tai,
- Abstract要約: スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
- 参考スコア(独自算出の注目度): 85.41043469428365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) reliably improves the reasoning performance of large language models, yet it appears to modify only a small fraction of parameters. We revisit this paradox and show that sparsity is a surface artifact of a model-conditioned optimization bias: for a fixed pretrained model, updates consistently localize to preferred parameter regions, highly consistent across runs and largely invariant to datasets and RL recipes. We mechanistically explain these dynamics with a Three-Gate Theory: Gate I (KL Anchor) imposes a KL-constrained update; Gate II (Model Geometry) steers the step off principal directions into low-curvature, spectrum-preserving subspaces; and Gate III (Precision) hides micro-updates in non-preferred regions, making the off-principal bias appear as sparsity. We then validate this theory and, for the first time, provide a parameter-level characterization of RLVR's learning dynamics: RLVR learns off principal directions in weight space, achieving gains via minimal spectral drift, reduced principal-subspace rotation, and off-principal update alignment. In contrast, SFT targets principal weights, distorts the spectrum, and even lags RLVR. Together, these results provide the first parameter-space account of RLVR's training dynamics, revealing clear regularities in how parameters evolve. Crucially, we show that RL operates in a distinct optimization regime from SFT, so directly adapting SFT-era parameter-efficient fine-tuning (PEFT) methods can be flawed, as evidenced by our case studies on advanced sparse fine-tuning and LoRA variants. We hope this work charts a path toward a white-box understanding of RLVR and the design of geometry-aware, RLVR-native learning algorithms, rather than repurposed SFT-era heuristics.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は、大規模言語モデルの推論性能を確実に改善するが、わずかなパラメータしか変更しないように見える。
我々は、このパラドックスを再検討し、スパーシティがモデル条件の最適化バイアスの表面成果物であることを示し、固定された事前訓練モデルでは、更新は、常に好ましいパラメータ領域にローカライズされ、実行中に高度に一貫性があり、データセットやRLレシピにほとんど不変である。
ゲートI(KLアンカー)はKL制約された更新を課し、ゲートII(モデル幾何)は主方向から低曲率、スペクトル保存部分空間へステップオフし、ゲートIII(精度)は非推奨領域のマイクロ更新を隠蔽し、オフプリンシパルバイアスを空白のように見せる。
次に、この理論を検証し、初めてRLVRの学習力学のパラメータレベルの特徴を与える: RLVRは重量空間の主方向から学習し、最小のスペクトルドリフト、主部分空間回転の低減、主部分領域外更新アライメントによって利得を得る。
対照的に、SFTは主重量を目標とし、スペクトルを歪め、RLVRを遅延させる。
これらの結果は、RLVRのトレーニングダイナミクスに関する最初のパラメータ空間の説明を提供し、パラメータの進化に関する明確な規則性を明らかにしている。
重要なことは、RLがSFTと異なる最適化方式で動作していることを示し、SFT-eraパラメータ効率の良い微調整法(PEFT)を直接適用することは、先進的なスパース細調整法とLoRAの変種に関するケーススタディで証明されているように、欠点がある。
この研究は、SFT時代のヒューリスティックスを再活用するのではなく、RLVRのホワイトボックス理解と、幾何学を意識したRLVRネイティブ学習アルゴリズムの設計に向けての道筋を図っていることを願っている。
関連論文リスト
- Spatial-SSRL: Enhancing Spatial Understanding via Self-Supervised Reinforcement Learning [93.19037653970622]
本研究では,通常のRGBやRGB-D画像から直接検証可能な信号を導出する自己教師付きRLパラダイムである空間SSRLを紹介する。
我々のタスクの訓練は、一般的な視覚能力を維持しながら空間的推論を大幅に改善する。
以上の結果から,単純で本質的な監視がRLVRを大規模に実現し,LVLMの空間知能を高めるための実践的経路が示唆された。
論文 参考訳(メタデータ) (2025-10-31T16:30:08Z) - On Predictability of Reinforcement Learning Dynamics for Large Language Models [20.320268628019047]
本研究は,大言語モデルにおけるRLによるパラメータ更新の2つの基本特性を同定する。
短期早期訓練ウィンドウを用いて最終パラメータ更新を補間するプラグインアクセラレーションフレームワークであるAlphaRLを提案する。
論文 参考訳(メタデータ) (2025-10-01T06:13:50Z) - The Anatomy of Alignment: Decomposing Preference Optimization by Steering Sparse Features [1.7832672957068079]
このフレームワークは、解釈可能なスパース機能を調節することで、モデル動作を操る軽量なアダプタを訓練する。
この機構は, 学習後プロセスの挙動変化を近似するのに十分な原理と表現性を有することを示す。
全体として、FSRLは解釈可能な制御インターフェースを提供し、フィーチャレベルでの好み最適化の圧力がどのように現れるかを診断する実用的な方法を提供している。
論文 参考訳(メタデータ) (2025-09-16T10:32:40Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models [0.0]
強化学習(Reinforcement Learning, RL)の微調整では、モデルのパラメータの大部分を更新する必要があると仮定されることが多い。
我々はこの現象をRLにより引き起こされるパラメータ更新空間と呼ぶ。
このスパースサブネットワークのみを微調整することで、完全なモデル性能が回復し、完全に微調整されたモデルとほぼ同じパラメータが得られることを示す。
論文 参考訳(メタデータ) (2025-07-23T01:02:17Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。