論文の概要: The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL
- arxiv url: http://arxiv.org/abs/2602.07078v1
- Date: Fri, 06 Feb 2026 03:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.427272
- Title: The Optimal Token Baseline: Variance Reduction for Long-Horizon LLM-RL
- Title(参考訳): 最適トークンベースライン:LLM-RLの可変化
- Authors: Yingru Li, Jiawei Xu, Ziniu Li, Jiacai Liu, Wei Liu, Yuxuan Tong, Longtao Zheng, Zhenghai Xue, Yaxiang Zhang, Tianle Cai, Ge Zhang, Qian Liu, Baoxiang Wang,
- Abstract要約: 大規模言語モデルのための強化学習(LLMs)は、勾配のばらつきが爆発的に広がるため、長い水平タスクのトレーニング崩壊に悩まされることが多い。
我々は、最適トークンベースライン(OTB)を第一原理から導出し、勾配更新が累積勾配ノルムに逆向きに重み付けされるべきであることを証明した。
提案手法はトレーニングの安定性を達成し,N=32$の大規模グループサイズとの性能を一致させ,シングルターンおよびツール統合推論タスクにおけるトークン消費量を65%以上削減する。
- 参考スコア(独自算出の注目度): 39.23942538769713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) for Large Language Models (LLMs) often suffers from training collapse in long-horizon tasks due to exploding gradient variance. To mitigate this, a baseline is commonly introduced for advantage computation; however, traditional value models remain difficult to optimize, and standard group-based baselines overlook sequence heterogeneity. Although classic optimal baseline theory can achieve global variance reduction, it neglects token heterogeneity and requires prohibitive gradient-based computation. In this work, we derive the Optimal Token Baseline (OTB) from first principles, proving that gradient updates should be weighted inversely to their cumulative gradient norm. To ensure efficiency, we propose the Logit-Gradient Proxy that approximates the gradient norm using only forward-pass probabilities. Our method achieves training stability and matches the performance of large group sizes ($N=32$) with only $N=4$, reducing token consumption by over 65% across single-turn and tool-integrated reasoning tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)のための強化学習(RL)は、爆発的な勾配分散に起因する長期タスクのトレーニング崩壊に悩まされることが多い。
これを緩和するために、ベースラインは利点のある計算のために一般的に導入されるが、従来の値モデルでは最適化が困難であり、標準的なグループベースのベースラインはシーケンスの不均一性を見越す。
古典的最適ベースライン理論は、大域的な分散の低減を達成できるが、トークンの不均一性を無視し、禁止的な勾配に基づく計算を必要とする。
本研究では、最適トークンベースライン(OTB)を第一原理から導出し、勾配更新が累積勾配ノルムに逆向きに重み付けされるべきであることを証明した。
効率性を確保するために,フォワードパス確率のみを用いて勾配ノルムを近似するLogit-Gradient Proxyを提案する。
本手法はトレーニング安定性を実現し,大規模なグループサイズ(N=32$)とN=4$(N=4$)との性能を一致させ,シングルターンおよびツール統合推論タスクにおけるトークン消費量を65%以上削減する。
関連論文リスト
- Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - PACE: Marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
拡張一般化のための勾配を暗黙的に正規化するが、知識を保持するために微調整されたモデルや事前訓練されたモデルも暗黙的に整列する。
また、テキスト分類(GLUE)や数学的推論においてLoRAを改善している。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - PathProx: A Proximal Gradient Algorithm for Weight Decay Regularized
Deep Neural Networks [25.114642281756495]
ウェイト崩壊(Weight decay)は、ディープラーニングにおいて最も広く使われている正規化形式の一つである。
本稿では、勾配勾配勾配は、この目的に対して非効率なアルゴリズムであると主張している。
ReLUアクティベーションを持つニューラルネットワークの場合、重み劣化対象に対する解は異なる目的の解と等価である。
論文 参考訳(メタデータ) (2022-10-06T17:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。