論文の概要: Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals
- arxiv url: http://arxiv.org/abs/2605.22703v1
- Date: Thu, 21 May 2026 16:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.607411
- Title: Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals
- Title(参考訳): Clipping Bottleneck: 近境界信号の確率的回復によるRLVRの安定化
- Authors: Shuo Yang, Jinda Lu, Chiyu Ma, Kexin Huang, Haoming Meng, Qihui Zhang, Yuyang Liu, Bolin Ding, Guoyin Wang, Li Yuan, Jingren Zhou,
- Abstract要約: Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
- 参考スコア(独自算出の注目度): 83.0127582612634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a central paradigm for scaling LLM reasoning, yet its optimization often suffers from training instability and suboptimal convergence. Through a systematic dissection of clipping-based GRPO-style objectives, we identify the rigid clipping decision induced by hard clipping as a key practical bottleneck in the studied RLVR setups. Specifically, our analysis suggests that informative signals can lie in the near-boundary region just beyond the clipping threshold, and are therefore discarded by the standard hard-clipping rule. Notably, once this bottleneck is precisely identified, even simple stochastic perturbations at the boundary can recover meaningful performance gains. Building on this finding, we propose Near-boundary Stochastic Rescue (NSR), a minimal, plug-and-play modification that stochastically retains these slightly out-of-bound tokens to recover lost signals. While NSR, via stochastic sampling, can be interpreted as inducing an implicit gradient decay in expectation, our ablations reveal that its stochastic, boundary-local rescue mechanism is consistently more effective than deterministic gradient decay. Validated by extensive experiments across model sizes from 7B to 30B and both dense and MoE architectures, as a plug-and-play solution, NSR substantially improves training stability and delivers consistent gains over strong baselines such as DAPO and GSPO.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM推論をスケールするための中心的なパラダイムとして登場したが、その最適化は、しばしばトレーニング不安定性と準最適収束に悩まされる。
クリッピングに基づくGRPOスタイルの目的を体系的に切り離すことにより,硬いクリッピングによって引き起こされる剛性クリッピングの決定を,RLVR装置における重要な実用的ボトルネックとして同定する。
具体的には,情報伝達信号はクリッピングしきい値のすぐ向こうの領域に存在し,そのため標準のハードクリッピング規則により破棄される可能性が示唆された。
特に、このボトルネックを正確に特定すれば、境界における単純な確率的摂動でさえ、意味のあるパフォーマンスの利得を回復することができる。
そこで本研究では, 最小限のプラグアンドプレイ修正であるNSR(Near-boundary Stochastic Rescue)を提案する。
NSRは確率的サンプリングによって、予想される暗黙の勾配減衰を誘導するものとして解釈できるが、我々の主張は、その確率的、境界局所的な救難機構が決定論的勾配崩壊よりも一貫して有効であることを示している。
7Bから30Bまでのモデルサイズにわたる広範な実験と、密度の高いアーキテクチャとMoEのアーキテクチャの両方で検証されたNSRは、プラグアンドプレイソリューションとして、トレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースラインよりも一貫したゲインを提供する。
関連論文リスト
- Next-Acceleration-Scale Prediction for Autoregressive MRI Reconstruction [52.32112533846212]
MRI再建は本質的に不完全な逆問題である。
この制限は、再構成を離散的なマルチスケールの潜在空間に移動させ、自己回帰的次加速スケールの予測として機能させることによって解決する。
提案手法は,過度のアンサンプ下での多種多様なサンプリングパターンの再構成性能の向上を図っている。
論文 参考訳(メタデータ) (2026-05-19T04:40:50Z) - Analytic Drift Resister for Non-Exemplar Continual Graph Learning [23.86709351309769]
Non-Exemplar Continual Graph Learning (NECGL)は、リハーサルベースのパラダイムに固有のプライバシーリスクを取り除くことを目的としている。
NECGLフレームワークであるADR(Analytic Drift Resister)を提案する。
ADRは反復的バックプロパゲーションを利用して、凍結した事前訓練された制約から解放する。
論文 参考訳(メタデータ) (2026-04-03T01:58:11Z) - Variational Rectification Inference for Learning with Noisy Labels [74.85528327499662]
損失関数の適応的補正を定式化するために, 変分補正推論(VRI)を提案する。
VRIは、補正ベクトルを潜在変数として扱うことによって階層ベイズとして構成される。
VRIで変分項を導入することにより、条件付き後部を正確に推定し、ディラックデルタ関数への崩壊を避ける。
論文 参考訳(メタデータ) (2026-03-18T01:25:08Z) - GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation [56.92367609590823]
Long Chain-of-Thought (Long CoT)推論は、Large Language Models (LLMs)において有望であることを示している。
我々はLong CoTが本質的にシーケンシャルなレコメンデーションドメインに不適合であると主張している。
提案するRISER(Reinforced Item Space Exploration framework for Recommendation)を提案する。
論文 参考訳(メタデータ) (2026-01-31T10:02:43Z) - Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。
通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。
本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文 参考訳(メタデータ) (2023-09-29T15:24:48Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - On The Verification of Neural ODEs with Stochastic Guarantees [14.490826225393096]
時間連続型ニューラルネットワークの新興クラスであるneural odesは,グローバル最適化問題の集合を解いて検証できることを示す。
密なReachtubeを構築するための抽象化ベースのテクニックであるLagran Reachability(SLR)を紹介する。
論文 参考訳(メタデータ) (2020-12-16T11:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。