論文の概要: Understanding and Exploiting Weight Update Sparsity for Communication-Efficient Distributed RL
- arxiv url: http://arxiv.org/abs/2602.03839v1
- Date: Tue, 03 Feb 2026 18:56:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.648822
- Title: Understanding and Exploiting Weight Update Sparsity for Communication-Efficient Distributed RL
- Title(参考訳): 通信効率の良い分散RLにおける重み付き更新空間の理解と展開
- Authors: Erfan Miahi, Eugene Belilovsky,
- Abstract要約: 帯域幅に制約のある分散環境では,100倍(14 GBから108 MB)の通信削減を実現している。
本研究は,重み付け時空間の段階的および多段階的粒度に関する系統的研究である。
アップデートの間隔は一貫して高く、実際に関係のある設定で99%を超えることがよくあります。
- 参考スコア(独自算出の注目度): 16.40150726450328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a critical component for post-training large language models (LLMs). However, in bandwidth-constrained distributed RL, scalability is often bottlenecked by the synchronization of policy weights from trainers to inference workers, particularly over commodity networks or in decentralized settings. While recent studies suggest that RL updates modify only a small fraction of model parameters, these observations are typically based on coarse checkpoint differences. We present a systematic empirical study of weight-update sparsity at both step-level and multi-step granularities, examining its evolution across training dynamics, off-policy delay, and model scale. We find that update sparsity is consistently high, frequently exceeding 99% across practically relevant settings. Leveraging this structure, we propose PULSE (Patch Updates via Lossless Sparse Encoding), a simple yet highly efficient lossless weight synchronization method that transmits only the indices and values of modified parameters. PULSE is robust to transmission errors and avoids floating-point drift inherent in additive delta schemes. In bandwidth-constrained decentralized environments, our approach achieves over 100x (14 GB to ~108 MB) communication reduction while maintaining bit-identical training dynamics and performance compared to full weight synchronization. By exploiting this structure, PULSE enables decentralized RL training to approach centralized throughput, reducing the bandwidth required for weight synchronization from 20 Gbit/s to 0.2 Gbit/s to maintain high GPU utilization.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の訓練後において重要な要素である。
しかしながら、帯域幅に制約のある分散RLでは、スケーラビリティはトレーナーから推論ワーカー、特にコモディティネットワークや分散環境でのポリシー重みの同期によってボトルネックとなることが多い。
最近の研究では、RL更新はモデルパラメータのごく一部しか変更していないことが示唆されているが、これらの観察は通常、粗いチェックポイント差に基づいている。
本研究では,段階的および多段階的粒度における重み付け時空間の体系的研究を行い,トレーニング力学,オフ・ポリケーション遅延,モデルスケールの進化について検討した。
アップデートの間隔は一貫して高く、実際に関係のある設定で99%を超えることがよくあります。
この構造を応用したPULSE(Patch Updates via Lossless Sparse Encoding)を提案する。
PULSEは送信エラーに対して堅牢であり、加算デルタスキーム固有の浮動小数点ドリフトを避ける。
帯域制限付き分散環境において,本手法は全重同期と比較してビット単位のトレーニングダイナミクスと性能を維持しつつ,100倍(14GBから108MB)以上の通信削減を実現する。
この構造を利用することで、PULSEは集中的なスループットにアプローチするための分散RLトレーニングを可能にし、重量同期に必要な帯域幅を20Gbit/sから0.2Gbit/sに削減し、高いGPU使用率を維持する。
関連論文リスト
- Laminar: A Scalable Asynchronous RL Post-Training Framework [20.127034898123508]
RL軌道生成における長い尾の歪みは、重いGPU不使用を引き起こす。
現在のRLシステムはアクターとロールアウト間のグローバルな重量同期に依存しており、厳密なモデル更新スケジュールを生成する。
完全に分離されたアーキテクチャ上に構築されたスケーラブルで堅牢なRLポストトレーニングシステムであるLaminarを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:14Z) - Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [65.14124923451077]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - Communication-Efficient Wireless Federated Fine-Tuning for Large-Scale AI Models [13.742950928229078]
Low-Rank Adaptation (LoRA) は、完全に微調整された大型モデルではなく、コンパクトで低ランクな行列を訓練することでこれらの問題に対処する。
本稿では,学習性能と通信効率の両方を最適化する無線フェデレーションLoRAファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-01T06:15:38Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - Federated Deep Reinforcement Learning for the Distributed Control of
NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。
データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。
深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文 参考訳(メタデータ) (2021-12-07T03:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。