論文の概要: On the optimization dynamics of RLVR: Gradient gap and step size thresholds
- arxiv url: http://arxiv.org/abs/2510.08539v1
- Date: Thu, 09 Oct 2025 17:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.285903
- Title: On the optimization dynamics of RLVR: Gradient gap and step size thresholds
- Title(参考訳): RLVRの最適化力学について:勾配ギャップとステップサイズ閾値
- Authors: Joe Suk, Yaqi Duan,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) は経験的成功を収めた。
本稿では,RLVRの学習過程を全応答レベル(軌道)とトークンレベルの両方で解析することにより,RLVRの理論的基盤を構築する。
- 参考スコア(独自算出の注目度): 10.364533041751859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR), which uses simple binary feedback to post-train large language models, has shown significant empirical success. However, a principled understanding of why it works has been lacking. This paper builds a theoretical foundation for RLVR by analyzing its training process at both the full-response (trajectory) and token levels. Central to our analysis is a quantity called the Gradient Gap, which formalizes the direction of improvement from low-reward to high-reward regions of the response space. We prove that convergence critically depends on aligning the update direction with this Gradient Gap. Moreover, we derive a sharp step-size threshold based on the magnitude of the Gradient Gap: below it, learning converges, whereas above it, performance collapses. Our theory further predicts how the critical step size must scale with response length and the success rate, thereby explaining why practical heuristics such as length normalization improve stability and showing that, with a fixed learning rate, the success rate can stagnate strictly below $100\%$. We validate these predictions through controlled bandit simulations and LLM experiments, including training Qwen2.5-7B with GRPO.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、単純なバイナリフィードバックを使って、大規模な言語モデルを訓練した後、大きな成功をおさめている。
しかし、その理由に関する原則的な理解が欠如している。
本稿では,RLVRの学習過程を全応答レベル(軌道)とトークンレベルの両方で解析することにより,RLVRの理論的基盤を構築する。
我々の分析の中心はグラディエントギャップ(Gradient Gap)と呼ばれる量であり、これは応答空間の低逆から高逆領域への改善の方向を定式化したものである。
我々は、収束が更新方向とグラディエントギャップの整合性に依存することを証明している。
さらに、グラディエントギャップの大きさに基づいて、急激なステップサイズ閾値を導出します:その下、学習は収束し、上、パフォーマンスは崩壊します。
この理論は, 限界ステップサイズが応答長や成功率とどのようにスケールするかを予測し, 長さ正規化などの実用的ヒューリスティックが安定性を向上し, 一定の学習率で, 成功率が100/%以下となることを示す。
GRPOを用いたQwen2.5-7Bのトレーニングを含む,制御された帯域幅シミュレーションとLLM実験により,これらの予測を検証した。
関連論文リスト
- CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Insights from Gradient Dynamics: Gradient Autoscaled Normalization [0.0]
勾配力学は、ディープニューラルネットワークの安定性と一般化を決定する上で中心的な役割を果たす。
本研究では,階層間の一貫した変化と畳み込みネットワークのグローバルスケールを示すため,学習中に勾配のばらつきと標準偏差がどのように進化するかを実証的に分析する。
これらの観測により、勾配のスケーリングと自然進化を整合させる超パラメータフリー勾配正規化法を提案する。
論文 参考訳(メタデータ) (2025-09-03T19:54:23Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Understanding Augmentation-based Self-Supervised Representation Learning
via RKHS Approximation and Regression [53.15502562048627]
最近の研究は、自己教師付き学習とグラフラプラシアン作用素のトップ固有空間の近似との関係を構築している。
この研究は、増強に基づく事前訓練の統計的分析に発展する。
論文 参考訳(メタデータ) (2023-06-01T15:18:55Z) - On the Weight Dynamics of Deep Normalized Networks [5.250288418639077]
ディープニューラルネットワークの層間の効果的な学習率(ELR)の相違は、トレーニング容易性に悪影響を及ぼす可能性がある。
正規化層を持つネットワークの重み力学をモデル化することにより、これらの相違が時間とともにどのように進化するかを定式化する。
一定の学習率のトレーニングでは,初期勾配の爆発にもかかわらず,ELR比が1に収束することが証明された。
論文 参考訳(メタデータ) (2023-06-01T14:09:52Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。