論文の概要: Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs
- arxiv url: http://arxiv.org/abs/2602.17616v1
- Date: Thu, 19 Feb 2026 18:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.315034
- Title: Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs
- Title(参考訳): 安定な非同期: LLMのための可変制御オフポリシィRL
- Authors: Luke Huang, Zhuoyang Zhang, Qinghao Hu, Shang Yang, Song Han,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、推論タスクにおける大規模言語モデルの改善に広く用いられている。
しかし、REINFORCE や GRPO のような広く採用されている批判のない政策段階的手法では、高い非同期性によって政策段階的推定器は明らかにノイズを生じさせる。
本稿では,REINFORCE/GRPOスタイルのアルゴリズムの安定化手法を提案する。
- 参考スコア(独自算出の注目度): 19.079556051442168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is widely used to improve large language models on reasoning tasks, and asynchronous RL training is attractive because it increases end-to-end throughput. However, for widely adopted critic-free policy-gradient methods such as REINFORCE and GRPO, high asynchrony makes the policy-gradient estimator markedly $\textbf{higher variance}$: training on stale rollouts creates heavy-tailed importance ratios, causing a small fraction of samples to dominate updates. This amplification makes gradients noisy and learning unstable relative to matched on-policy training. Across math and general reasoning benchmarks, we find collapse is reliably predicted by effective sample size (ESS) and unstable gradient norms. Motivated by this diagnosis, we propose $\textbf{V}$ariance $\textbf{C}$ontrolled $\textbf{P}$olicy $\textbf{O}$ptimization ($\textbf{VCPO}$), a general stabilization method for REINFORCE/GRPO-style algorithms that (i) scales learning rate based on effective sample size to dampen unreliable updates, and (ii) applies a closed-form minimum-variance baseline for the off-policy setting, avoiding an auxiliary value model and adding minimal overhead. Empirically, VCPO substantially improves robustness for asynchronous training across math, general reasoning, and tool-use tasks, outperforming a broad suite of baselines spanning masking/clipping stabilizers and algorithmic variants. This reduces long-context, multi-turn training time by 2.5$\times$ while matching synchronous performance, demonstrating that explicit control of policy-gradient variance is key for reliable asynchronous RL at scale.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、推論タスクの大規模言語モデルを改善するために広く使われており、非同期RLトレーニングはエンドツーエンドのスループットを向上させるため魅力的である。
しかし、REINFORCE や GRPO のような広く採用されている批判のない政策段階的な手法では、高い非同期性によってポリシー段階的な推定が顕著に$\textbf{higher variance}$: 古いロールアウトのトレーニングは重み付けの重要度比を生じさせ、少数のサンプルが更新を支配している。
この増幅により、グラデーションがうるさくなり、政治上のトレーニングと一致した相対的に学習が不安定になる。
数学や一般的な推論のベンチマークでは、崩壊は有効なサンプルサイズ(ESS)と不安定な勾配ノルムによって確実に予測される。
この診断に触発されて、REINFORCE/GRPOスタイルのアルゴリズムの一般的な安定化手法である$\textbf{V}$ariance $\textbf{C}$ontrolled $\textbf{P}$olicy $\textbf{O}$ptimization$\textbf{VCPO}$
一 有効なサンプルサイズに基づいて学習率を尺度化し、信頼性の低い更新を抑えること。
(ii) オフポリティ設定にクローズドフォームの最小分散ベースラインを適用し、補助値モデルを避け、オーバーヘッドを最小限にする。
経験的に、VCPOは数学、一般的な推論、ツール使用タスクにわたる非同期トレーニングの堅牢性を大幅に改善し、マスキング/クリッピング安定化器とアルゴリズムの変種にまたがる幅広いベースラインを上回っている。
これにより、同期性能にマッチしながら、長時間のマルチターントレーニング時間を2.5$\times$に短縮できる。
関連論文リスト
- VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training [18.849117699859622]
訓練安定性は、大規模言語モデルの強化学習における中心的な課題である。
変動周波数レベルのソフトポリシー最適化(VESPO)を提案する。
数学的推論ベンチマークの実験では、VESPOは安定なトレーニングを64倍の安定度と完全な非同期実行で維持している。
論文 参考訳(メタデータ) (2026-02-11T09:48:08Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - SOUP: Token-level Single-sample Mix-policy Reinforcement Learning for Large Language Models [67.41779761651924]
SOUPは、トークンレベルで個々のサンプル内でオフとオンの学習を統合するフレームワークである。
標準のオン・ポリティクス・トレーニングと既存のオフ・ポリティクス・エクステンションを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-29T09:56:15Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。