論文の概要: You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories
- arxiv url: http://arxiv.org/abs/2605.21468v1
- Date: Wed, 20 May 2026 17:53:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.828662
- Title: You Only Need Minimal RLVR Training: Extrapolating LLMs via Rank-1 Trajectories
- Title(参考訳): 最小限のRLVRトレーニングが必要:Rランク1軌道でLLMを外挿する
- Authors: Zhepei Wei, Xinyu Zhu, Wei-Lin Chen, Chengsong Huang, Jiaxin Huang, Yu Meng,
- Abstract要約: 検証可能な報酬(RLVR)を用いた強化学習は極めて低ランクであり,予測可能性が高いことを示す。
本稿では,短時間の観測窓からランク1部分空間を推定する,単純で計算効率のよいRELEXを提案する。
注目すべきは、RELEXはトレーニングコストなしで観測窓をはるかに越えることができることだ。
- 参考スコア(独自算出の注目度): 23.542887618146988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving reasoning in large language models (LLMs), yet the underlying geometry of the resulting parameter trajectories remains underexplored. In this work, we demonstrate that RLVR weight trajectories are extremely low-rank and highly predictable. Specifically, we find that the majority of downstream performance gains are captured by a rank-1 approximation of the parameter deltas, where the magnitude of this projection evolves near-linearly with training steps. Motivated by this, we propose a simple and compute-efficient method RELEX (REinforcement Learning EXtrapolation), which estimates the rank-1 subspace from a short observation window and extrapolates future checkpoints via linear regression, with no learned model required. Across three models (i.e., Qwen2.5-Math-1.5B, Qwen3-4B-Base, and Qwen3-8B-Base), RELEX produces checkpoints that match or exceed RLVR performance on both in-domain and out-of-domain benchmarks, requiring as few as 15% steps of full RLVR training. Remarkably, RELEX is able to extrapolate far beyond the observation window at no training cost, predicting checkpoints up to 10-20$\times$ beyond the observed prefix with continued improvement (e.g., observe only the first 50 steps and extrapolate to 1000 steps). Our ablation analysis confirms the minimalist sufficiency of RELEX: neither increasing the subspace rank nor employing non-linear modeling yields further gains in extrapolation. Finally, we show that RELEX's success stems from a "denoising" effect: by projecting updates onto the rank-1 subspace, the model discards stochastic optimization noise that would otherwise degrade performance during extrapolation. Our code is available at https://github.com/weizhepei/RELEX.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)における推論を改善する主要なパラダイムとなっているが、結果として生じるパラメータの軌跡の基本的な幾何学はいまだ未解明のままである。
本研究では,RLVRのウェイトトラジェクトリが極めて低ランクであり,予測可能であることを実証する。
具体的には、下流のパフォーマンス向上の大部分はパラメータデルタのランク1近似によって捉えられ、このプロジェクションの大きさはトレーニングステップとともにほぼ直線的に進化する。
そこで本研究では,短時間の観測窓からランク-1部分空間を推定し,線形回帰により将来のチェックポイントを外挿する手法であるRELEX(Reinforcement Learning Extrapolation)を提案する。
3つのモデル(Qwen2.5-Math-1.5B、Qwen3-4B-Base、Qwen3-8B-Base)にまたがって、RELEXはドメイン内および外部のベンチマークでRLVRのパフォーマンスに適合またはそれ以上のチェックポイントを生成し、フルRLVRトレーニングの15%のステップしか必要としない。
注目すべきは、RELEXは、トレーニングコストなしで、観察窓の遥かに外挿することができ、観察されたプレフィックスを越えて最大10~20$\times$を予測できることだ(例えば、最初の50ステップのみを観察し、1000ステップを外挿する)。
我々のアブレーション分析はRELEXの最小限の効率を裏付けるものであり、部分空間ランクの上昇や非線形モデリングの導入は外挿においてさらなる利益をもたらすものではない。
最後に、RELEXの成功は、ランク1のサブ空間に更新を投影することで、外挿時の性能を低下させる確率最適化ノイズを解消する「減少」効果に起因していることを示す。
私たちのコードはhttps://github.com/weizhepei/RELEX.comで公開されています。
関連論文リスト
- On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR [51.935533482549545]
RLVRはトレーニングデータセットに過度に適合する暗黙の報酬を示す可能性がある。
モデルは、トレーニングプロセス中に報酬が比較的低いままであっても、テストセット上で満足なパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2026-05-07T16:30:28Z) - Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration [88.7332439088792]
大規模言語モデル(LLM)に対する検証可能な報酬(RLVR)による強化学習のスケーリングが,効果的なトレーニングパラダイムとして登場した。
我々は低ランク軌跡のtextbfNonlinear textbfExtrapolation(textbfNExt)を提案する。
計算オーバーヘッドを約37.5%削減し,RLVRアルゴリズムやタスクとの互換性を維持した。
論文 参考訳(メタデータ) (2026-04-13T13:28:12Z) - Not All Steps are Informative: On the Linearity of LLMs' RLVR Training [14.59942263367421]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)のポストトレーニングの中心的コンポーネントとなっている。
本研究では,将来のモデル状態が外挿による中間チェックポイントから予測可能かどうかを検討する。
Weight Extrapolationは標準RLトレーニングに匹敵する性能のモデルを生成すると同時に,計算量を大幅に削減することを示した。
論文 参考訳(メタデータ) (2026-01-08T03:06:18Z) - Masked-and-Reordered Self-Supervision for Reinforcement Learning from Verifiable Rewards [13.064343544668283]
MR-RLVR(Masked-and-Reordered RLVR)を提案する。
MR-RLVRをQwen2.5-3BとDeepSeek-R1-Distill-Qwen-1.5Bで実装し,AIME24,AIME25,AMC23,MATH500で評価した。
論文 参考訳(メタデータ) (2025-11-21T18:23:04Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。