論文の概要: Decoupling the All-Reduce Primitive for Accelerating Distributed Deep
Learning
- arxiv url: http://arxiv.org/abs/2302.12445v1
- Date: Fri, 24 Feb 2023 04:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:31:31.312546
- Title: Decoupling the All-Reduce Primitive for Accelerating Distributed Deep
Learning
- Title(参考訳): 分散ディープラーニングを高速化するall-reduceプリミティブの分離
- Authors: Lin Zhang, Shaohuai Shi, Xiaowen Chu, Wei Wang, Bo Li, Chengjian Liu
- Abstract要約: コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。
本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。
DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
- 参考スコア(独自算出の注目度): 22.168137965177284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication scheduling has been shown to be effective in accelerating
distributed training, which enables all-reduce communications to be overlapped
with backpropagation computations. This has been commonly adopted in popular
distributed deep learning frameworks. However, there exist two fundamental
problems: (1) excessive startup latency proportional to the number of workers
for each all-reduce operation; (2) it only achieves sub-optimal training
performance due to the dependency and synchronization requirement of the
feed-forward computation in the next iteration. We propose a novel scheduling
algorithm, DeAR, that decouples the all-reduce primitive into two continuous
operations, which overlaps with both backpropagation and feed-forward
computations without extra communications. We further design a practical tensor
fusion algorithm to improve the training performance. Experimental results with
five popular models show that DeAR achieves up to 83% and 15% training speedup
over the state-of-the-art solutions on a 64-GPU cluster with 10Gb/s Ethernet
and 100Gb/s InfiniBand interconnects, respectively.
- Abstract(参考訳): 通信スケジューリングは、バックプロパゲーション計算と重複するオールリデュース通信を可能にする分散トレーニングの高速化に有効であることが示されている。
これは一般的な分散ディープラーニングフレームワークで採用されている。
しかし,1)全リデュース操作毎のワーカ数に比例する過度の起動遅延,(2)次回におけるフィードフォワード計算の依存性と同期要求による準最適トレーニング性能の達成,という2つの根本的な問題が存在する。
そこで,提案するスケジューリングアルゴリズムである dear では,全reduceプリミティブを2つの連続演算に分離し,余分な通信を必要とせず,バックプロパゲーションとフィードフォワード演算の両方と重なるスケジューリングアルゴリズムを提案する。
さらに,訓練性能を向上させるために,実用的なテンソル融合アルゴリズムも設計する。
5つの一般的なモデルによる実験結果から、DeARは10Gb/sのイーサネットと100Gb/sのInfiniBand相互接続を持つ64GPUクラスタ上で、最先端のソリューションに対して最大83%と15%のトレーニングスピードアップを達成することが示された。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Lancet: Accelerating Mixture-of-Experts Training via Whole Graph Computation-Communication Overlapping [14.435637320909663]
MoEテクニックは、DNNモデルパラメータのサイズを拡大する上で重要な役割を果たす。
既存の手法は、全てを専門家の計算でオーバーラップすることでこの問題を緩和しようとする。
本研究では,より広いトレーニンググラフレベルでのオーバーラップを考慮し,この課題の範囲を広げる。
コンパイラをベースとした最適化により,MoEモデルトレーニングを自動的に強化するシステムであるLancetにこれらの手法を実装した。
論文 参考訳(メタデータ) (2024-04-30T10:17:21Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。
ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - Provably Doubly Accelerated Federated Learning: The First Theoretically
Successful Combination of Local Training and Compressed Communication [7.691755449724637]
分散最適化とフェデレート学習のための最初のアルゴリズムを提案する。
我々のアルゴリズムは2倍の加速速度で直線的に正確な解に収束する。
論文 参考訳(メタデータ) (2022-10-24T14:13:54Z) - Collaborative Learning over Wireless Networks: An Introductory Overview [84.09366153693361]
主に、ワイヤレスデバイス間の協調トレーニングに焦点を合わせます。
過去数十年間、多くの分散最適化アルゴリズムが開発されてきた。
データ局所性 – すなわち、各参加デバイスで利用可能なデータがローカルのままである間、共同モデルを協調的にトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-07T20:15:39Z) - Themis: A Network Bandwidth-Aware Collective Scheduling Policy for
Distributed Training of DL Models [2.6599014990168834]
分散トレーニングは、タスクを複数のNPUに分割することで、トレーニング時間を短縮するソリューションである。
Themisは、すべての次元にわたる通信負荷のバランスをとるために、グループを動的にスケジュールする新しい集合スケジューリングスキームである。
Themisは平均して1.88x(2.92xmax)で1つのAll-ReduceのネットワークBW利用を改善することができる。
論文 参考訳(メタデータ) (2021-10-09T06:50:04Z) - Accelerating Distributed K-FAC with Smart Parallelism of Computing and
Communication Tasks [13.552262050816616]
Kronecker-Factored Approximate Curvature (KFAC)は、深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つである。
しかし、KFACでモデルをトレーニングするためにGPUクラスタを活用すると、大規模な計算が発生すると同時に、イテレーション毎に余分な通信が導入される。
そこで我々は,D-KFACを提案する。
論文 参考訳(メタデータ) (2021-07-14T08:01:07Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。