論文の概要: GAC: Stabilizing Asynchronous RL Training for LLMs via Gradient Alignment Control
- arxiv url: http://arxiv.org/abs/2603.01501v1
- Date: Mon, 02 Mar 2026 06:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.713315
- Title: GAC: Stabilizing Asynchronous RL Training for LLMs via Gradient Alignment Control
- Title(参考訳): GAC: 勾配アライメント制御によるLCMの非同期RLトレーニングの安定化
- Authors: Haofeng Xu, Junwei Su, Yukun Tian, Lansong Diao, Zhengping Qian, Chuan Wu,
- Abstract要約: 政策段階の更新に非同期性を適用することで,定性的に異なるトレーニングダイナミクスを誘導し,厳しいトレーニング不安定を生じさせることを示す。
GRADIENT ALIGNMENT Controlは、静的な方向に沿って非同期RLの進行を制御するシンプルな動的認識安定化法である。
- 参考スコア(独自算出の注目度): 16.529035487811267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Asynchronous execution is essential for scaling reinforcement learning (RL) to modern large model workloads, including large language models and AI agents, but it can fundamentally alter RL optimization behavior. While prior work on asynchronous RL focuses on training throughput and distributional correction, we show that naively applying asynchrony to policy-gradient updates can induce qualitatively different training dynamics and lead to severe training instability. Through systematic empirical and theoretical analysis, we identify a key signature of this instability: asynchronous training exhibits persistently high cosine similarity between consecutive policy gradients, in contrast to the near-orthogonal updates observed under synchronized training. This stale-aligned gradient effect amplifies correlated updates and increases the risk of overshooting and divergence. Motivated by this observation, we propose GRADIENT ALIGNMENT CONTROL(GAC), a simple dynamics-aware stabilization method that regulates asynchronous RL progress along stale-aligned directions via gradient projection. We establish convergence guarantees under bounded staleness and demonstrate empirically that GAC recovers stable, on-policy training dynamics and matches synchronized baselines even at high staleness.
- Abstract(参考訳): 非同期実行は、大規模言語モデルやAIエージェントを含む現代の大規模モデルワークロードへの強化学習(RL)のスケーリングには不可欠だが、RL最適化の動作を根本的に変更することができる。
非同期RLの以前の研究は、トレーニングスループットと分散補正に重点を置いていたが、ポリシーの漸進的な更新に非同期を適用することによって、定性的に異なるトレーニングダイナミクスを誘発し、厳しいトレーニング不安定をもたらすことが示されている。
非同期トレーニングは、同期学習下で観察されるほぼ直交的な更新とは対照的に、連続的な政策勾配間のコサイン類似性を持続的に高める。
この安定配向勾配効果は、相関した更新を増幅し、オーバーシューティングと発散のリスクを増大させる。
本研究は,GRADIENT ALIGNMENT Control(GAC)を提案する。
高安定度においても,GACが安定なオンライントレーニングダイナミクスを回復し,同期ベースラインと一致できることを実証的に示す。
関連論文リスト
- ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning [75.73135757250806]
エージェント強化学習(ARL)は、複雑で多段階の対話的なタスクを解決するためのトレーニングエージェントにとって有望なパラダイムとして急速に注目を集めている。
初期の成果を奨励しているにもかかわらず、ARLは非常に不安定であり、しばしばトレーニングの崩壊につながる。
本稿では,制御された再現可能な環境下でのトレーニング安定性を検証した,安定したトレーニングレシピと系統的分析フレームワークであるARLArenaを提案する。
論文 参考訳(メタデータ) (2026-02-25T03:43:34Z) - RL-VLA$^3$: Reinforcement Learning VLA Accelerating via Full Asynchronism [42.27384804295299]
VLA(Vision-Language-Action)モデルは、一般的なインボディードインテリジェンスへの重要な経路として登場した。
本稿では,環境相互作用からアクタポリシー更新に至るまで,パイプライン全体を包含する完全に非同期なポリシートレーニングフレームワークを提案し,実装する。
LIBEROベンチマークでは、既存の同期戦略と比較して59.25%のスループット向上を実現している。
論文 参考訳(メタデータ) (2026-02-05T15:30:23Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Periodic Asynchrony: An Effective Method for Accelerating Reinforcement Learning [8.395046547177806]
強化学習 (RL) が注目され, 再生・適用への取り組みが高まっている。
主流のRLフレームワークでは、推論とトレーニングは一般的に同じデバイスにデプロイされる。
本研究では、推論とトレーニングの展開を分離する戦略に戻ります。
従来の同期アーキテクチャを周期的な非同期フレームワークに変換し、各コンポーネントの要求駆動、独立、および弾力的なスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-11-24T08:22:50Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Parallelized Reverse Curriculum Generation [62.25453821794469]
強化学習では, エージェントが, まばらな報酬のために, 特定の一連の行動を必要とするタスクをマスターすることが困難である。
逆カリキュラム生成(RCG)は、エージェントが学習するカリキュラムを自動的に生成する逆拡張アプローチを提供する。
本稿では,複数のACペアを同時に訓練し,定期的に批判を交換する並列化手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T15:58:35Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。