論文の概要: CO2: Efficient Distributed Training with Full Communication-Computation
Overlap
- arxiv url: http://arxiv.org/abs/2401.16265v1
- Date: Mon, 29 Jan 2024 16:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:31:30.197543
- Title: CO2: Efficient Distributed Training with Full Communication-Computation
Overlap
- Title(参考訳): CO2: 全通信計算オーバーラップによる効率的な分散トレーニング
- Authors: Weigao Sun, Zhen Qin, Weixuan Sun, Shidi Li, Dong Li, Xuyang Shen, Yu
Qiao, Yiran Zhong
- Abstract要約: CO2は、非常に限られた通信帯域で制約された広範なマルチノードクラスタでも高いスケーラビリティを実現することができる。
我々は、厳密な上界の成立を伴う収束の数学的証明を提供する。
- 参考スコア(独自算出の注目度): 34.98736790496305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The fundamental success of large language models hinges upon the efficacious
implementation of large-scale distributed training techniques. Nevertheless,
building a vast, high-performance cluster featuring high-speed communication
interconnectivity is prohibitively costly, and accessible only to prominent
entities. In this work, we aim to lower this barrier and democratize
large-scale training with limited bandwidth clusters. We propose a new approach
called CO2 that introduces local-updating and asynchronous communication to the
distributed data-parallel training, thereby facilitating the full overlap of
COmunication with COmputation. CO2 is able to attain a high scalability even on
extensive multi-node clusters constrained by very limited communication
bandwidth. We further propose the staleness gap penalty and outer momentum
clipping techniques together with CO2 to bolster its convergence and training
stability. Besides, CO2 exhibits seamless integration with well-established
ZeRO-series optimizers which mitigate memory consumption of model states with
large model training. We also provide a mathematical proof of convergence,
accompanied by the establishment of a stringent upper bound. Furthermore, we
validate our findings through an extensive set of practical experiments
encompassing a wide range of tasks in the fields of computer vision and natural
language processing. These experiments serve to demonstrate the capabilities of
CO2 in terms of convergence, generalization, and scalability when deployed
across configurations comprising up to 128 A100 GPUs. The outcomes emphasize
the outstanding capacity of CO2 to hugely improve scalability, no matter on
clusters with 800Gbps RDMA or 80Gbps TCP/IP inter-node connections.
- Abstract(参考訳): 大規模言語モデルの基本的な成功は、大規模分散トレーニング技術の効果的実装にかかっている。
それでも、高速通信相互接続性を備えた大規模で高性能なクラスタの構築は、極めて高価であり、著名なエンティティにのみアクセス可能である。
本研究では,この障壁を低くし,限られた帯域クラスタによる大規模トレーニングを民主化する。
我々は、分散データ並列トレーニングにローカル更新と非同期通信を導入し、コミュニケーションとコミュニケーションの重複を解消するCO2と呼ばれる新しいアプローチを提案する。
CO2は、非常に限られた通信帯域で制約された広範なマルチノードクラスタでも高いスケーラビリティを実現することができる。
さらに,co2を併用したステイレネスギャップペナルティと外運動量クリッピング手法を提案し,その収束とトレーニング安定性を高める。
さらに、CO2は確立されたZeroシリーズオプティマイザとシームレスに統合され、モデルトレーニングによるモデル状態のメモリ消費を軽減します。
また,厳密な上界の確立を伴う収束の数学的証明も提供する。
さらに,コンピュータビジョンと自然言語処理の分野において,幅広いタスクを包含する広範な実践実験を通じて,本研究の成果を検証した。
これらの実験は、最大128のA100 GPUで構成される構成にデプロイする際のコンバージェンス、一般化、スケーラビリティの観点から、CO2の機能を示すのに役立つ。
その結果、800GbpsのRDMAや80GbpsのTCP/IP接続を持つクラスタにせよ、スケーラビリティを大幅に向上するCO2の優れた能力が強調された。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Enhancing Stability for Large Language Models Training in Constrained Bandwidth Networks [8.049237611207113]
我々は、階層分割(hpZ)方式における競合状態が、数十億のパラメータを持つモデルのトレーニング時に不安定を引き起こす可能性を示す。
次に、これらの収束問題に対処し、競争力のあるトレーニング効率を維持しながら、分割アルゴリズムの変更を提案する。
このアルゴリズムは、98%のスループットを持つ大型モデルの堅牢なトレーニングを可能にし、収束の質を犠牲にすることなく、モデルのトレーニング速度を向上する。
論文 参考訳(メタデータ) (2024-06-28T01:46:10Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training
and Compression [8.37672888329615]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。
ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - Nebula-I: A General Framework for Collaboratively Training Deep Learning
Models on Low-Bandwidth Cloud Clusters [39.85470606966918]
遠隔ヘテロジニアスクラスタ上でディープラーニングモデルを協調訓練するための一般的なフレームワークであるNebula-Iを導入する。
Nebula-IはPaddlePaddleディープラーニングフレームワークで実装されている。
実験により,提案フレームワークは,良好なNLP性能を維持しつつ,トレーニング効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2022-05-19T11:10:14Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Accelerating Distributed K-FAC with Smart Parallelism of Computing and
Communication Tasks [13.552262050816616]
Kronecker-Factored Approximate Curvature (KFAC)は、深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つである。
しかし、KFACでモデルをトレーニングするためにGPUクラスタを活用すると、大規模な計算が発生すると同時に、イテレーション毎に余分な通信が導入される。
そこで我々は,D-KFACを提案する。
論文 参考訳(メタデータ) (2021-07-14T08:01:07Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。