論文の概要: DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster
- arxiv url: http://arxiv.org/abs/2506.21263v1
- Date: Thu, 26 Jun 2025 13:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.104509
- Title: DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster
- Title(参考訳): DiLoCoX:分散クラスタのための低コミュニケーション大規模トレーニングフレームワーク
- Authors: Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich,
- Abstract要約: そこで我々は,低コミュニケーションの大規模分散クラスタトレーニングフレームワークであるDiLoCoXを提案する。
パイプライン並列性と、通信とローカルトレーニングのデュアルステップ遅延オーバーラップと、適応的なグラディエント圧縮スキームを組み合わせる。
本研究では,DiLoCoXがモデル収束の無視可能な劣化を維持しつつ,分散トレーニングにおいて357倍の高速化を実現可能であることを示す。
- 参考スコア(独自算出の注目度): 7.597885871452736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The distributed training of foundation models, particularly large language models (LLMs), demands a high level of communication. Consequently, it is highly dependent on a centralized cluster with fast and reliable interconnects. Can we conduct training on slow networks and thereby unleash the power of decentralized clusters when dealing with models exceeding 100 billion parameters? In this paper, we propose DiLoCoX, a low-communication large-scale decentralized cluster training framework. It combines Pipeline Parallelism with Dual Optimizer Policy, One-Step-Delay Overlap of Communication and Local Training, and an Adaptive Gradient Compression Scheme. This combination significantly improves the scale of parameters and the speed of model pre-training. We justify the benefits of one-step-delay overlap of communication and local training, as well as the adaptive gradient compression scheme, through a theoretical analysis of convergence. Empirically, we demonstrate that DiLoCoX is capable of pre-training a 107B foundation model over a 1Gbps network. Compared to vanilla AllReduce, DiLoCoX can achieve a 357x speedup in distributed training while maintaining negligible degradation in model convergence. To the best of our knowledge, this is the first decentralized training framework successfully applied to models with over 100 billion parameters.
- Abstract(参考訳): 基礎モデルの分散トレーニング、特に大きな言語モデル(LLM)は、高いレベルのコミュニケーションを必要とする。
その結果、高速で信頼性の高い相互接続を持つ集中クラスタに強く依存する。
遅いネットワークでトレーニングを行い、1000億以上のパラメータを扱う場合、分散クラスタのパワーを解放できるだろうか?
本稿では,低コミュニケーションの大規模分散クラスタトレーニングフレームワークであるDiLoCoXを提案する。
パイプライン並列性とデュアルオプティマイザポリシ、コミュニケーションとローカルトレーニングのワンステップ遅延オーバーラップ、適応的なグラディエント圧縮スキームを組み合わせる。
この組み合わせにより、パラメータのスケールとモデルの事前学習速度が大幅に向上する。
我々は,一段遅れ重なり合う通信と局所訓練の利点と適応的勾配圧縮スキームの利点を,収束の理論解析により正当化する。
実験により,DiLoCoXは1Gbpsネットワーク上で107Bの基礎モデルを事前学習できることを示した。
バニラAllReduceと比較して、DiLoCoXは、モデル収束の無視可能な劣化を維持しながら、分散トレーニングにおいて357倍のスピードアップを達成することができる。
私たちの知る限りでは、これは1000億以上のパラメータを持つモデルにうまく適用された最初の分散トレーニングフレームワークです。
関連論文リスト
- NoLoCo: No-all-reduce Low Communication Training Method for Large Models [0.310688583550805]
大規模言語モデルのトレーニングは、一般的に数万のアクセラレータを含むクラスタ上で最適化手法によって行われる。
NoLoCoは、モデルウェイトをランダムに選択された他のウェイトと部分的に平均化することで、Nesterov運動量の新しい変種を介してモデルウェイトを暗黙的に同期させる。
提案手法は, 完全シャードデータ並列訓練や, 広範に使用されている低通信訓練であるDiLoCoよりも通信オーバーヘッドをはるかに少なくする。
論文 参考訳(メタデータ) (2025-06-12T17:23:23Z) - Protocol Models: Scaling Decentralized Training with Communication-Efficient Model Parallelism [59.79227116582264]
モデルスケーリングはディープラーニングの大幅な進歩につながったが、これらのモデルを分散環境でトレーニングすることは依然として難しい。
本研究では,前処理と後処理の両方を圧縮し,最大99%の圧縮が可能となる新しい圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T02:19:22Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Simplifying Distributed Neural Network Training on Massive Graphs:
Randomized Partitions Improve Model Aggregation [23.018715954992352]
本稿では、前述のコスト操作に依存しない分散GNNトレーニングのための簡易フレームワークを提案する。
具体的には,トレーニンググラフの局所的に利用可能な部分の局所モデルを非同期に学習する独立したトレーナーを編成する。
最大13億エッジのソーシャルおよびeコマースネットワークの実験において、提案したRandomTMAおよびSuperTMAアプローチは、最速のベースラインと比較して最先端のパフォーマンスと2.31倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2023-05-17T01:49:44Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。