論文の概要: Not All Steps are Informative: On the Linearity of LLMs' RLVR Training
- arxiv url: http://arxiv.org/abs/2601.04537v1
- Date: Thu, 08 Jan 2026 03:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.007995
- Title: Not All Steps are Informative: On the Linearity of LLMs' RLVR Training
- Title(参考訳): LLMのRLVRトレーニングの直線性について
- Authors: Tianle Wang, Zhongyuan Wu, Shenghao Jin, Hao Xu, Wei Chen, Ning Miao,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)のポストトレーニングの中心的コンポーネントとなっている。
本研究では,将来のモデル状態が外挿による中間チェックポイントから予測可能かどうかを検討する。
Weight Extrapolationは標準RLトレーニングに匹敵する性能のモデルを生成すると同時に,計算量を大幅に削減することを示した。
- 参考スコア(独自算出の注目度): 14.59942263367421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a central component of large language model (LLM) post-training. Unlike supervised fine-tuning (SFT), RLVR lets an LLM generate multiple candidate solutions and reinforces those that lead to a verifiably correct final answer. However, in practice, RLVR often requires thousands of training steps to reach strong performance, incurring substantial computation largely attributed to prolonged exploration. In this work, we make a surprising observation: during RLVR, LLMs evolve in a strongly linear manner. Specifically, both model weights and model output log-probabilities exhibit strong linear correlations with RL training steps. This suggests that RLVR predominantly amplifies trends that emerge early in training, rather than continuously discovering new behaviors throughout the entire optimization trajectory. Motivated by this linearity, we investigate whether future model states can be predicted from intermediate checkpoints via extrapolation, avoiding continued expensive training. We show that Weight Extrapolation produces models with performance comparable to standard RL training while requiring significantly less computation. Moreover, Logits Extrapolation consistently outperforms continued RL training on all four benchmarks by extrapolating beyond the step range where RL training remains stable.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)のポストトレーニングの中心的コンポーネントとなっている。
教師付き微調整(SFT)とは異なり、RLVRはLLMが複数の候補解を生成し、検証可能な正解につながるものを補強する。
しかし実際には、RLVRは何千ものトレーニングステップを必要とせず、大きな計算は長い探索によるものである。
本研究では,RLVRにおいて,LLMが線形に強く進化する様子を観察する。
具体的には、モデル重みとモデル出力の対数確率は、RLトレーニングステップと強い線形相関を示す。
これは、RLVRが最適化軌道全体を通して新しい振る舞いを継続的に発見するのではなく、トレーニングの初期段階に現れる傾向を主に増幅していることを示唆している。
この線形性によって、我々は、将来のモデル状態が外挿による中間チェックポイントから予測可能かどうかを調査し、継続的な高価なトレーニングを避ける。
Weight Extrapolationは標準RLトレーニングに匹敵する性能のモデルを生成すると同時に,計算量を大幅に削減することを示した。
さらに、Logits Extrapolationは、RLトレーニングが安定しているステップ範囲を超えて外挿することで、4つのベンチマークのRLトレーニングを継続的に上回っている。
関連論文リスト
- Discover, Learn, and Reinforce: Scaling Vision-Language-Action Pretraining with Diverse RL-Generated Trajectories [33.872433985210876]
視覚-言語-アクション(VLA)モデルの事前訓練には、多種多様な高品質な操作軌跡が必要となる。
本稿では,VLA事前学習のための複数の異なる高精度な行動パターンを生成するDiscover,Lea rn,Reinforceを提案する。
ダウンストリームのタスクスイートに適応すると、VLAモデルは、同じサイズの標準RLデータセットでトレーニングされたデータセットよりも、多様なRLデータで事前訓練された。
論文 参考訳(メタデータ) (2025-11-24T07:54:49Z) - RL in the Wild: Characterizing RLVR Training in LLM Deployment [43.81962834561768]
Reinforcement Learning with Verifiable Rewards (RLVR)は、その推論と理解能力を高めるために、ここ数ヶ月で急増している。
しかし、その複雑なデータフローと多様なタスクは、RLトレーニングシステムに重大な課題をもたらす。
システムの観点からは、RLVRの理解は限られている。
論文 参考訳(メタデータ) (2025-09-29T03:09:27Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文 参考訳(メタデータ) (2025-09-20T13:11:28Z) - SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning [81.7764584515496]
VLA(Vision-Language-Action)モデルは、ロボット操作の強力なパラダイムとして登場した。
これらのモデルは2つの根本的な課題に直面している。
VLAモデルに適した効率的な強化学習フレームワークであるSimpleVLA-RLを紹介する。
論文 参考訳(メタデータ) (2025-09-11T17:59:17Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。