Fugu-MT 論文翻訳(概要): When to Stop Reusing: Dynamic Gradient Gating for Sample-Efficient RLVR

論文の概要: When to Stop Reusing: Dynamic Gradient Gating for Sample-Efficient RLVR

arxiv url: http://arxiv.org/abs/2605.19425v1
Date: Tue, 19 May 2026 06:23:43 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.164251
Title: When to Stop Reusing: Dynamic Gradient Gating for Sample-Efficient RLVR
Title（参考訳）: リユースをいつ止めるか: サンプル効率の良いRLVRのための動的グラディエントゲーティング
Authors: Yuchun Miao, Sen Zhang, Yuqi Zhang, Yaorui Shi, Qi Gu, Xunliang Cai, Lefei Zhang,
Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)における高度な推論の主流パラダイムとなっている。 RLVRでは、複数の勾配更新のために各ロールアウトバッチを再利用することでポリシーシフトが増幅され、パフォーマンスが大幅に低下する。我々は,textitDisproportionate Weight Divergence (DWD) 現象を同定した。軽量な介入であるtextitDynamic Gradient Gating (DGG) を提案する。
参考スコア（独自算出の注目度）: 46.88928401641895
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become the dominant paradigm for advanced reasoning in Large Language Models (LLMs), but rollout samples are expensive to obtain, making sample efficiency a critical bottleneck. A natural remedy is to reuse each rollout batch for multiple gradient updates, a standard practice in classical RL. Yet in RLVR, this amplifies policy shift, leading to severe performance degradation. Detecting the onset of degradation early enough to stop reuse remains an open and challenging problem. We close this gap by identifying the \textit{Disproportionate Weight Divergence (DWD)} phenomenon: performance degradation is synchronized with a sharp surge in the \texttt{lm\_head} weight change, while intermediate layers remain stable. Empirically, we verify that DWD emerges consistently across diverse LLMs and tasks. Theoretically, we prove that (i) harmful gradients concentrate at the \texttt{lm\_head} while intermediate layers are structurally attenuated, and (ii) the \texttt{lm\_head} gradient norm lower-bounds the policy divergence. These results establish the \texttt{lm\_head} gradient norm as a principled, real-time signal of catastrophic policy shift. Guided by this insight, we propose \textit{Dynamic Gradient Gating (DGG)}, a lightweight intervention that monitors the \texttt{lm\_head} gradient norm in real time and intercepts harmful gradients before they corrupt the optimizer. DGG consistently matches or exceeds the standard single-use baseline, achieving up to $2.93\times$ sample efficiency and $2.14\times$ wall-clock speedup across math, ALFWorld, WebShop, and search-augmented QA tasks.
Abstract（参考訳）: Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLMs) の先進的推論において,主要なパラダイムとなっている。自然な対策として、各ロールアウトバッチを複数の勾配更新のために再利用することが挙げられる。しかし、RLVRでは、これはポリシーシフトを増幅し、パフォーマンスが大幅に低下する。再利用を止めるのに十分な早期の劣化の検出は、オープンで困難な問題である。性能劣化は, 中間層が安定でありながら, <textt{lm\_head} の重量変化の急激な急激な急激な増加と同期する。実験により,DWDが多種多様なLCMやタスクにわたって一貫して出現することを検証した。理論的には i) 有害な勾配は、中間層が構造的に減衰している間に \texttt{lm\_head} に集中し、 (ii) \texttt{lm\_head} 勾配ノルムはポリシーの発散を低くする。これらの結果は、破滅的な政策シフトの原理的、リアルタイムな信号として \texttt{lm\_head} 勾配ノルムを確立する。この知見に導かれ、我々は軽量な介入である \textit{Dynamic Gradient Gating (DGG) を提案し、これは、 \textt{lm\_head} 勾配ノルムをリアルタイムで監視し、オプティマイザを破損する前に有害な勾配をインターセプトする。 DGGは標準のシングルユースベースラインと一貫して一致し、サンプル効率$2.93\timesと2.14\times$ウォールクロックスピードアップ$数学、ALFWorld、WebShop、検索強化QAタスクを達成している。

関連論文リスト

Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。 VIGORはポリシーモデルのみを使用する単純な報酬です。数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文参考訳（メタデータ） (2026-05-11T03:15:37Z)
From $\boldsymbol{\logπ}$ to $\boldsymbolπ$: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight [6.07556923512707]
Reinforcement Learning with Verifiable Rewards (RLVR)は、Large Language Model (LLM)推論の飛躍を触媒しているが、その最適化のダイナミクスは脆弱である。 GRPOのような標準的なアルゴリズムはハードクリッピングを通じて安定性を強制する。本稿では,重要サンプリング比に基づくデカップリング崩壊機構を用いたデカップリング・グラディエント・ポリシー・最適化(DGPO)を提案する。
論文参考訳（メタデータ） (2026-03-15T14:00:48Z)
$\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。 $nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文参考訳（メタデータ） (2026-03-05T08:42:54Z)
ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning [85.20505958752928]
フローベースモデル上での強化ファインチューニング(RFT)は、優先順位調整に不可欠である。 RFTは、過度に最適化された詳細や意味的なミスアライメントのような視覚幻覚をしばしば導入する。この研究は、なぜ視覚幻覚が生じるのか、どのようにそれらを減らすのかを予備的に探求する。
論文参考訳（メタデータ） (2026-02-03T11:49:46Z)
Learning More with Less: A Dynamic Dual-Level Down-Sampling Framework for Efficient Policy Optimization [42.2119634259269]
GRPOのような批判のないメソッドは、複数のロールアウトから利点を推定することでメモリ要求を減らすが、徐々に収束する傾向がある。我々は、ポリシー最適化の効率を改善するために、グループ間で最も有益なサンプルとトークンを優先順位付けする textbfDynamic Dual-Level Down-Sampling (D$3$S) フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-26T09:36:53Z)
Adapt in the Wild: Test-Time Entropy Minimization with Sharpness and Feature Regularization [85.50560211492898]
テスト時適応(TTA)は、テストデータが分散シフトが混在している場合、モデルの性能を改善または損なう可能性がある。これはしばしば、既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。両面からTTAを安定化させるため,SARと呼ばれる鋭く信頼性の高いエントロピー最小化手法を提案する。
論文参考訳（メタデータ） (2025-09-05T10:03:00Z)
On-the-Fly Adaptive Distillation of Transformer to Dual-State Linear Attention [53.22963042513293]
大規模言語モデル(LLM)は、自己アテンションを通じてグローバルトークンの依存関係をキャプチャするが、長い入力に対する計算とメモリコストに直面する。まず,二状態線形注意(Dual-state linear attention, A)を提案する。これは2つの隠れ状態を保持する設計であり,その1つは,リニアアテンションアーキテクチャの典型的な短距離バイアスを緩和し,リニアアテンションを追尾するものである。本稿では,DSLA層を段階的に置き換えるオンライン適応蒸留フレームワークであるDSLA-Serveを紹介する。
論文参考訳（メタデータ） (2025-06-11T01:25:06Z)
ZClip: Adaptive Spike Mitigation for LLM Pre-Training [0.3574867616159909]
大規模言語モデル(LLM)のトレーニングには、勾配不安定性や損失スパイクなど、数多くの課題がある。定数法やノルム法のような従来の勾配クリッピング技術は、これらの問題に効果的に対処できない。本研究では,時間とともに勾配規範の統計的特性に基づいてクリッピング閾値を動的に調整する適応的勾配クリッピングアルゴリズムZClipを提案する。
論文参考訳（メタデータ） (2025-04-03T11:41:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。