論文の概要: VL Norm: Rethink Loss Aggregation in RLVR
- arxiv url: http://arxiv.org/abs/2509.07558v2
- Date: Sat, 11 Oct 2025 08:50:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:09.342239
- Title: VL Norm: Rethink Loss Aggregation in RLVR
- Title(参考訳): VLノルム:RLVRにおける損失集積を再考
- Authors: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)における動的生成長の特性に合わせた損失集約手法を提案する。
理論的にも経験的にも,様々な長さが政策損失に与える影響を解析することにより,最小分散非バイアス推定器として問題を再検討する。
我々の提案したVLノルムは、真の政策損失の偏りのない見積もりを提供するだけでなく、理論の勾配分散を最小化する。
- 参考スコア(独自算出の注目度): 23.196933474967224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose VL Norm (Variance-reduced Length-dependent Normalization), a simple yet effective loss aggregation method tailored to the characteristic of dynamic generation lengths in Reinforcement Learning with Verifiable Rewards (RLVR). Recently, RLVR has demonstrated strong potential in improving the reasoning capabilities of large language models (LLMs), but a major challenge lies in the large variability of response lengths during training, which leads to high gradient variance and unstable optimization. Although previous methods such as GRPO, DAPO, and Dr. GRPO introduce different loss normalization terms to address this issue, they either produce biased estimates or still suffer from high gradient variance. By analyzing the effect of varying lengths on policy loss both theoretically and empirically, we reformulate the problem as finding a minimum-variance unbiased estimator. Our proposed VL Norm not only provides an unbiased estimate of the true policy loss but also minimizes gradient variance in theory. Besides, VL Norm is easy to implement with less than 10 lines of code change. Extensive experiments show that it consistently achieves superior results across different model sizes, maximum lengths, and tasks. When integrated into the state-of-the-art RL algorithm DAPO, it achieves up to 2.67x faster convergence on the CountDown task. Our code is public at https://github.com/zerolllin/Delta-L-Normalization.
- Abstract(参考訳): 本稿では,RLVR(Reinforcement Learning with Verifiable Rewards)において,動的生成長の特性に合わせた簡易かつ効果的な損失集約手法であるVL Normを提案する。
近年、RLVRは、大規模言語モデル(LLM)の推論能力の向上に強い可能性を示しているが、大きな課題は、トレーニング中の応答長の大きなばらつきであり、高い勾配のばらつきと不安定な最適化をもたらす。
GRPO、DAPO、Dr. GRPOといった従来の手法では、この問題に対処するために異なる損失正規化項を導入していたが、偏りのある見積もりを生成するか、高勾配のばらつきに悩まされている。
理論的にも経験的にも,様々な長さが政策損失に与える影響を解析することにより,最小分散非バイアス推定器として問題を再検討する。
我々の提案したVLノルムは、真の政策損失の偏りのない見積もりを提供するだけでなく、理論の勾配分散を最小化する。
さらに、VL Normは10行未満のコード変更で簡単に実装できる。
大規模な実験により、異なるモデルサイズ、最大長、タスクにまたがる優れた結果が一貫して得られている。
最先端のRLアルゴリズムDAPOに統合されると、CountDownタスクにおける最大2.67倍の収束が達成される。
私たちのコードはhttps://github.com/zerolllin/Delta-L-Normalization.comで公開されています。
関連論文リスト
- How Does the ReLU Activation Affect the Implicit Bias of Gradient Descent on High-dimensional Neural Network Regression? [27.523011286375947]
本稿では,高次元のランダムな特徴に対する2乗損失を伴う浅部ReLUモデルのトレーニングにおいて,勾配降下(GD)の暗黙バイアスを特徴付ける。
この2つの極性の間に補間を行い、十分に高次元のランダムなデータに対して、暗黙の偏差は高い確率で最小l2-ノルム解に近似することを示した。
論文 参考訳(メタデータ) (2026-03-05T07:36:07Z) - The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL [39.23942538769713]
大規模言語モデルのための強化学習(LLMs)は、勾配のばらつきが爆発的に広がるため、長い水平タスクのトレーニング崩壊に悩まされることが多い。
我々は、最適トークンベースライン(OTB)を第一原理から導出し、勾配更新が累積勾配ノルムに逆向きに重み付けされるべきであることを証明した。
提案手法はトレーニングの安定性を達成し,N=32$の大規模グループサイズとの性能を一致させ,シングルターンおよびツール統合推論タスクにおけるトークン消費量を65%以上削減する。
論文 参考訳(メタデータ) (2026-02-06T03:16:04Z) - Why GRPO Needs Normalization: A Local-Curvature Perspective on Adaptive Gradients [9.932325888357488]
Group Relative Policy Optimization (GRPO) は、Reinforcement Learning (RL)アルゴリズムのデファクト標準である。
標準偏差正規化は適応勾配を具現化する。
軽度条件下では,GRPOは非正規化REINFORCEよりも厳格に収束率を向上し,平均的な報酬標準偏差が特徴的であることを示す。
論文 参考訳(メタデータ) (2026-01-30T16:23:43Z) - Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Better Rates for Private Linear Regression in the Proportional Regime via Aggressive Clipping [19.186034457189162]
一般的なアプローチは、サンプルごとの勾配の予想基準よりもクリッピング定数をはるかに大きく設定することである。
しかし、分析を単純化する一方で、これは経験的証拠がパフォーマンスを最適化することを示唆しているものとは対照的である。
我々の研究は、クリッピングが頻繁に起こる体制において、理論と実践のギャップを埋める。
論文 参考訳(メタデータ) (2025-05-22T07:34:27Z) - Efficient Differentiable Approximation of Generalized Low-rank Regularization [64.73416824444328]
低ランク正規化(LRR)は様々な機械学習タスクに広く応用されている。
本稿では,LRRの効率的な微分可能近似を提案する。
論文 参考訳(メタデータ) (2025-05-21T11:49:17Z) - A Piecewise Lyapunov Analysis of Sub-quadratic SGD: Applications to Robust and Quantile Regression [22.917692982875025]
一階微分しか持たない関数を$f$で扱える新しいLyapunov関数を導入する。
一般の減少段数と定数段数の下で有限時間モーメント境界を導出する。
我々の結果は、特にオンライン統計手法に広く応用されている。
論文 参考訳(メタデータ) (2025-04-11T00:20:37Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Optimization Variance: Exploring Generalization Properties of DNNs [83.78477167211315]
ディープニューラルネットワーク(DNN)のテストエラーは、しばしば二重降下を示す。
そこで本研究では,モデル更新の多様性を測定するために,新しい測度である最適化分散(OV)を提案する。
論文 参考訳(メタデータ) (2021-06-03T09:34:17Z) - Robust Kernel-based Distribution Regression [13.426195476348955]
2段階のサンプリングを含む分布回帰(DR)を研究し、ヒルベルト空間(RKHS)を再現するカーネル上での確率測度から実値応答への回帰を目指す。
2段階サンプリング問題に対するロバストロス関数$l_sigma$の導入により,新たなロバスト分布回帰(RDR)スキームを提案する。
論文 参考訳(メタデータ) (2021-04-21T17:03:46Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。
近勾配法はOWL回帰を解くための標準手法として用いられる。
未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文 参考訳(メタデータ) (2020-06-29T23:35:53Z) - Leverage the Average: an Analysis of KL Regularization in RL [44.01222241795292]
Kullback-Leibler (KL) 正則化がq-値を暗黙的に平均化することを示す。
非常に強力なパフォーマンスバウンダリを提供しており、最初に2つの望ましい側面を組み合わせています。
我々の仮定のいくつかはニューラルネットワークには当てはまらないので、この理論解析を広範な実証研究で補完する。
論文 参考訳(メタデータ) (2020-03-31T10:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。