論文の概要: On the Learning Dynamics of RLVR at the Edge of Competence
- arxiv url: http://arxiv.org/abs/2602.14872v1
- Date: Mon, 16 Feb 2026 16:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.533134
- Title: On the Learning Dynamics of RLVR at the Edge of Competence
- Title(参考訳): コンピテンスエッジにおけるRLVRの学習ダイナミクスについて
- Authors: Yu Huang, Zixin Wen, Yuejie Chi, Yuting Wei, Aarti Singh, Yingbin Liang, Yuxin Chen,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大規模な推論モデルにおける最近のブレークスルーの主要な要因である。
コンポジション推論タスクにおける変圧器のRLのトレーニング力学の理論を開発する。
- 参考スコア(独自算出の注目度): 86.52481827737097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has been a main driver of recent breakthroughs in large reasoning models. Yet it remains a mystery how rewards based solely on final outcomes can help overcome the long-horizon barrier to extended reasoning. To understand this, we develop a theory of the training dynamics of RL for transformers on compositional reasoning tasks. Our theory characterizes how the effectiveness of RLVR is governed by the smoothness of the difficulty spectrum. When data contains abrupt discontinuities in difficulty, learning undergoes grokking-type phase transitions, producing prolonged plateaus before progress recurs. In contrast, a smooth difficulty spectrum leads to a relay effect: persistent gradient signals on easier problems elevate the model's capabilities to the point where harder ones become tractable, resulting in steady and continuous improvement. Our theory explains how RLVR can improve performance at the edge of competence, and suggests that appropriately designed data mixtures can yield scalable gains. As a technical contribution, our analysis develops and adapts tools from Fourier analysis on finite groups to our setting. We validate the predicted mechanisms empirically via synthetic experiments.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、大規模な推論モデルにおける最近のブレークスルーの主要な要因である。
しかし、最終的な結果のみに基づく報酬が、長期にわたる推論の障壁を克服する上で、どのように役立つのかは謎のままである。
これを理解するために,コンポジション推論タスクにおけるトランスフォーマーのRLのトレーニング力学の理論を開発した。
我々の理論は、RLVRの有効性が難易度スペクトルの滑らかさによってどのように制御されているかを特徴づける。
データが急激な不連続性を含む場合、学習はグラッキング型相転移を起こし、進行が再開する前に長めの台地を生成する。
これとは対照的に、スムーズな難易度スペクトルはリレー効果をもたらす: より容易な問題に対する永続的な勾配信号は、モデルの能力をより困難なものへと高め、安定した継続的な改善をもたらす。
我々の理論は、RLVRが能力の限界においてどのようにパフォーマンスを向上させるかを説明し、適切に設計されたデータ混合がスケーラブルなゲインをもたらすことを示唆している。
技術的貢献として、我々の分析は有限群上のフーリエ解析から我々の設定までツールを開発し、適応する。
人工実験により予測されたメカニズムを実証的に検証した。
関連論文リスト
- Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering [50.63386303357225]
本稿では,ニューロンの活性化に選択的に介入することで推論信頼性を向上させる軽量なテストタイムフレームワークであるAdaRASを提案する。
AdaRASは、極性を意識した平均差基準を介してReasoning-Critical Neurons(RCN)を特定し、推論中にアクティベーションを適応的に制御する。
10の数学およびコーディングベンチマークの実験では、AIME-24とAIME-25の13%以上のゲインを含む一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-27T17:53:01Z) - Efficient Reinforcement Learning for Large Language Models with Intrinsic Exploration [33.02780998281276]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善した。
本研究は,RLVRにおけるデータ効率の向上に本質的なデータ特性の活用,すなわちトレーニング中のほぼ自由な利益をいかに生かすかを検討する。
論文 参考訳(メタデータ) (2025-11-02T04:16:47Z) - PACR: Progressively Ascending Confidence Reward for LLM Reasoning [55.06373646059141]
我々は、PACR(Progressive Ascending Confidence Reward)を提案する。
PACRは、正解に対するモデルの進化的信念から直接計算された、密集したモデル固有の報酬である。
以上の結果から,RLVRトレーニングはより効果的で信頼性が高いことが示唆された。
論文 参考訳(メタデータ) (2025-10-25T11:25:35Z) - How LLMs Learn to Reason: A Complex Network Perspective [14.638878448692493]
Reinforcement Learning from Verifiable Rewards による大規模言語モデルのトレーニングは、突飛な振る舞いのセットを示している。
この現象は単一統一理論を用いて説明できると考えられる。
私たちの研究は、将来のAIシステムの創発的な推論能力をエンジニアリングするための新しい物理的直感を提供します。
論文 参考訳(メタデータ) (2025-09-28T04:10:37Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models [83.24079543652253]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。