論文の概要: $ΔL$ Normalization: Rethink Loss Aggregation in RLVR
- arxiv url: http://arxiv.org/abs/2509.07558v1
- Date: Tue, 09 Sep 2025 09:52:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.259197
- Title: $ΔL$ Normalization: Rethink Loss Aggregation in RLVR
- Title(参考訳): ΔL$正規化:RLVRの損失集約を再考
- Authors: Zhiyuan He, Xufang Luo, Yike Zhang, Yuqing Yang, Lili Qiu,
- Abstract要約: デルタL$正規化(英: $Delta L$ Normalization)は、RLVR(Reinforcement Learning with Verifiable Rewards)における動的生成長の特性に合わせた損失集約手法である。
提案した$Delta L$正規化は、真の政策損失の偏りのない見積もりを提供するだけでなく、理論の勾配分散を最小化する。
- 参考スコア(独自算出の注目度): 23.196933474967224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose $\Delta L$ Normalization, a simple yet effective loss aggregation method tailored to the characteristic of dynamic generation lengths in Reinforcement Learning with Verifiable Rewards (RLVR). Recently, RLVR has demonstrated strong potential in improving the reasoning capabilities of large language models (LLMs), but a major challenge lies in the large variability of response lengths during training, which leads to high gradient variance and unstable optimization. Although previous methods such as GRPO, DAPO, and Dr. GRPO introduce different loss normalization terms to address this issue, they either produce biased estimates or still suffer from high gradient variance. By analyzing the effect of varying lengths on policy loss both theoretically and empirically, we reformulate the problem as finding a minimum-variance unbiased estimator. Our proposed $\Delta L$ Normalization not only provides an unbiased estimate of the true policy loss but also minimizes gradient variance in theory. Extensive experiments show that it consistently achieves superior results across different model sizes, maximum lengths, and tasks. Our code will be made public at https://github.com/zerolllin/Delta-L-Normalization.
- Abstract(参考訳): 本稿では,RLVR(Reinforcement Learning with Verifiable Rewards)において,動的生成長の特性に合わせた簡易かつ効果的な損失集約手法である$\Delta L$ Normalizationを提案する。
近年、RLVRは、大規模言語モデル(LLM)の推論能力の向上に強い可能性を示しているが、大きな課題は、トレーニング中の応答長の大きなばらつきであり、高い勾配のばらつきと不安定な最適化をもたらす。
GRPO、DAPO、Dr. GRPOといった従来の手法では、この問題に対処するために異なる損失正規化項を導入していたが、偏りのある見積もりを生成するか、高勾配のばらつきに悩まされている。
理論的にも経験的にも,様々な長さが政策損失に与える影響を解析することにより,最小分散非バイアス推定器として問題を再検討する。
提案した$\Delta L$正規化は、真の政策損失の偏りのない見積もりを提供するだけでなく、理論の勾配分散を最小化する。
大規模な実験により、異なるモデルサイズ、最大長、タスクにまたがる優れた結果が一貫して得られている。
私たちのコードはhttps://github.com/zerolllin/Delta-L-Normalization.orgで公開されます。
関連論文リスト
- Staying in the Sweet Spot: Responsive Reasoning Evolution via Capability-Adaptive Hint Scaffolding [59.60915947702282]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力の向上に成功している。
既存のRLVR手法は、訓練データの困難さとモデルの能力のミスマッチにより、探索の非効率に悩まされることが多い。
本稿では,高効率領域に留まることの難易度を動的に調整する新しい監視支援RLVRフレームワークであるSEELEを提案する。
論文 参考訳(メタデータ) (2025-09-08T17:36:21Z) - Better Rates for Private Linear Regression in the Proportional Regime via Aggressive Clipping [19.186034457189162]
一般的なアプローチは、サンプルごとの勾配の予想基準よりもクリッピング定数をはるかに大きく設定することである。
しかし、分析を単純化する一方で、これは経験的証拠がパフォーマンスを最適化することを示唆しているものとは対照的である。
我々の研究は、クリッピングが頻繁に起こる体制において、理論と実践のギャップを埋める。
論文 参考訳(メタデータ) (2025-05-22T07:34:27Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Robust Kernel-based Distribution Regression [13.426195476348955]
2段階のサンプリングを含む分布回帰(DR)を研究し、ヒルベルト空間(RKHS)を再現するカーネル上での確率測度から実値応答への回帰を目指す。
2段階サンプリング問題に対するロバストロス関数$l_sigma$の導入により,新たなロバスト分布回帰(RDR)スキームを提案する。
論文 参考訳(メタデータ) (2021-04-21T17:03:46Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。