論文の概要: Decoupled DiLoCo for Resilient Distributed Pre-training
- arxiv url: http://arxiv.org/abs/2604.21428v1
- Date: Thu, 23 Apr 2026 08:45:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.390241
- Title: Decoupled DiLoCo for Resilient Distributed Pre-training
- Title(参考訳): 回復力のある分散事前学習のための分離型DiLoCo
- Authors: Arthur Douillard, Keith Rush, Yani Donchev, Zachary Charles, Nova Fallen, Ayush Dubey, Ionel Gog, Josef Dean, Blake Woodworth, Zachary Garrett, Nate Keating, Jenny Bishop, Henry Prior, Edouard Yvinec, Arthur Szlam, Marc'Aurelio Ranzato, Jeff Dean,
- Abstract要約: ロックステップ同期障壁を壊すように設計されたDiLoCoフレームワークの進化であるDecoupled DiLoCoを紹介した。
我々は,グローバルダウンタイムを厳格にゼロとした数百万のシミュレートされたチップを用いて,障害発生環境におけるトレーニング効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 19.201912399584813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large-scale language model pre-training relies heavily on the single program multiple data (SPMD) paradigm, which requires tight coupling across accelerators. Due to this coupling, transient slowdowns, hardware failures, and synchronization overhead stall the entire computation, wasting significant compute time at scale. While recent distributed methods like DiLoCo reduced communication bandwidth, they remained fundamentally synchronous and vulnerable to these system stalls. To address this, we introduce Decoupled DiLoCo, an evolution of the DiLoCo framework designed to break the lock-step synchronization barrier and go beyond SPMD to maximize training goodput. Decoupled DiLoCo partitions compute across multiple independent ``learners'' that execute local inner optimization steps. These learners asynchronously communicate parameter fragments to a central synchronizer, which circumvents failed or straggling learners by aggregating updates using a minimum quorum, an adaptive grace window, and dynamic token-weighted merging. Inspired by ``chaos engineering'', we achieve significantly improved training efficiency in failure-prone environments with millions of simulated chips with strictly zero global downtime, while maintaining competitive model performance across text and vision tasks, for both dense and mixture-of-expert architectures.
- Abstract(参考訳): 現代の大規模言語モデルの事前学習は、アクセラレータ間の密結合を必要とする単一のプログラム多重データ(SPMD)パラダイムに大きく依存している。
この結合、過渡的なスローダウン、ハードウェア障害、および同期オーバーヘッドにより、計算全体が停止し、大規模な計算時間を浪費した。
DiLoCoのような最近の分散手法は通信帯域幅を減らしたが、基本的に同期性があり、システムの停止に弱いままであった。
この問題を解決するために、DioCoフレームワークの進化であるDecoupled DiLoCoを紹介します。
分離されたDiLoCoパーティションは、ローカル内部最適化ステップを実行する複数の独立した ``learners'' で計算される。
これらの学習者はパラメータフラグメントを中央同期器に非同期に伝達し、最小クォーラム、適応的なグレースウインドウ、動的トークン重み付きマージを使用して更新を集約することで学習者の失敗や混乱を回避する。
カオスエンジニアリング’にインスパイアされた我々は,高密度かつ高密度なアーキテクチャと混在したアーキテクチャの両面において,テキストおよび視覚タスク間の競合モデル性能を維持しながら,厳密なグローバルダウンタイムを持つ数百万のシミュレートされたチップを用いて,障害発生環境におけるトレーニング効率を著しく向上させる。
関連論文リスト
- CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - AdLoCo: adaptive batching significantly improves communications efficiency and convergence for Large Language Models [34.54482364155804]
本稿では,Multi-Instance Training(MIT),Adaptive Batched DiLoCo,スイッチモード機構を組み合わせた3段階の手法を提案する。
MITは個々のノードに対して、異なるモデルインスタンスを並列に複数の軽量なトレーニングストリームを実行することができる。
Adaptive Batched DiLoCoは、ローカルバッチサイズを動的に調整して、計算と通信のバランスをとる。
スイッチモードは、ハードウェアフレンドリな制限を超えて適応バッチサイズが大きくなると、グラデーションの蓄積をシームレスに導入する。
論文 参考訳(メタデータ) (2025-08-25T16:35:57Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - DeMo: Decoupled Momentum Optimization [6.169574689318864]
大規模ニューラルネットワークのトレーニングは通常、特別な高速相互接続を通じてアクセラレータ間の共有を必要とする。
本稿では,bfDecoupled textbfMomentum (DeMo)を提案する。
実験の結果,DeMoでトレーニングしたモデルとAdamWでトレーニングした同等のモデルのパフォーマンスが一致したか,あるいは上回った。
論文 参考訳(メタデータ) (2024-11-29T17:31:47Z) - Digital Twin-Assisted Federated Learning with Blockchain in Multi-tier Computing Systems [67.14406100332671]
産業用 4.0 システムでは、リソース制約のあるエッジデバイスが頻繁にデータ通信を行う。
本稿では,デジタルツイン (DT) とフェデレーション付きデジタルツイン (FL) 方式を提案する。
提案手法の有効性を数値解析により検証した。
論文 参考訳(メタデータ) (2024-11-04T17:48:02Z) - Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging [1.4748100900619232]
Federated Dynamic Averaging (FDA)は通信効率の良いDDL戦略である。
FDAは従来のアルゴリズムと最先端のアルゴリズムと比較して、通信コストを桁違いに削減している。
論文 参考訳(メタデータ) (2024-05-31T16:34:11Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。