論文の概要: On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR
- arxiv url: http://arxiv.org/abs/2605.06523v1
- Date: Thu, 07 May 2026 16:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.996662
- Title: On the Implicit Reward Overfitting and the Low-rank Dynamics in RLVR
- Title(参考訳): RLVRにおけるインシシット・リワードオーバーフィッティングと低ランクダイナミクスについて
- Authors: Hao Ye, Jisheng Dang, Junfeng Fang, Bimei Wang, Yizhou Zhang, Ning Lv, Wencan Zhang, Hong Peng, Bin Hu, Tat-Seng Chua,
- Abstract要約: RLVRはトレーニングデータセットに過度に適合する暗黙の報酬を示す可能性がある。
モデルは、トレーニングプロセス中に報酬が比較的低いままであっても、テストセット上で満足なパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 51.935533482549545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent extensive research has demonstrated that the enhanced reasoning capabilities acquired by models through Reinforcement Learning with Verifiable Rewards (RLVR) are primarily concentrated within the rank-1 components. Predicated on this observation, we employed Periodic Rank-1 Substitution and identified a counterintuitive phenomenon: RLVR may exhibit implicit reward overfitting to the training dataset. Specifically, the model can achieve satisfactory performance on the test set even when its rewards remain relatively low during the training process. Furthermore, we characterize three distinct properties of RL training: (1) The effective rank-1 component in RLVR don't maintain other model knowledge except mathematical reasoning capability. (2) RLVR fundamentally functions by optimizing a specific singular spectrum. The distribution of singular values of almost all linear layers in RLVR-trained model behaves like heavy-tailed distribution. (3) the left singular vectors associated with rank-1 components demonstrate a stronger alignment tendency during training, which echoes the discovery that RLVR is optimizing sampling efficiency in essence. Taken together, our findings and analysis further reveal how RLVR shapes model parameters and offer potential insights for improving existing RL paradigms or other training paradigms to implement continual learning.
- Abstract(参考訳): 近年の研究では、RLVR(Reinforcement Learning with Verifiable Rewards)によるモデルによる推論能力の強化が、主にランク1のコンポーネントに集中していることが示されている。
RLVRはトレーニングデータセットに過度に適合する暗黙の報酬を示す可能性がある。
具体的には、トレーニングプロセス中に報酬が比較的低いままであっても、テストセット上で満足なパフォーマンスを達成することができる。
1)RLVRにおける有効ランク1成分は,数学的推論能力以外のモデル知識を保持できない。
2) RLVR は特定の特異スペクトルを最適化することによって基本的に機能する。
RLVR学習モデルにおけるほぼすべての線形層の特異値の分布は、重み付き分布のように振る舞う。
3) ランク1成分に付随する左特異ベクトルはトレーニング中により強いアライメント傾向を示し, RLVRがサンプリング効率を本質的に最適化しているという発見を反映している。
今回得られた知見と分析により,RLVRがモデルパラメータをどのように形成し,既存のRLパラダイムや他のトレーニングパラダイムを改良し,継続的な学習を実現するための潜在的洞察を提供する。
関連論文リスト
- Low-rank Optimization Trajectories Modeling for LLM RLVR Acceleration [88.7332439088792]
大規模言語モデル(LLM)に対する検証可能な報酬(RLVR)による強化学習のスケーリングが,効果的なトレーニングパラダイムとして登場した。
我々は低ランク軌跡のtextbfNonlinear textbfExtrapolation(textbfNExt)を提案する。
計算オーバーヘッドを約37.5%削減し,RLVRアルゴリズムやタスクとの互換性を維持した。
論文 参考訳(メタデータ) (2026-04-13T13:28:12Z) - Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - The Surprising Ineffectiveness of Pre-Trained Visual Representations for Model-Based Reinforcement Learning [8.36595587335589]
視覚強化学習法は、しばしば大量のデータを必要とする。
モデルベースRL(MBRL)は、プランニングによる効率的なデータ利用の潜在的なソリューションを提供する。
MBRLには現実世界のタスクの一般化機能が欠けている。
論文 参考訳(メタデータ) (2024-11-15T13:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。