論文の概要: Communication-Efficient Distributed Deep Learning: A Comprehensive
Survey
- arxiv url: http://arxiv.org/abs/2003.06307v2
- Date: Fri, 1 Sep 2023 11:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 17:48:09.101201
- Title: Communication-Efficient Distributed Deep Learning: A Comprehensive
Survey
- Title(参考訳): コミュニケーション効率のよい分散ディープラーニング:包括的調査
- Authors: Zhenheng Tang, Shaohuai Shi, Wei Wang, Bo Li, Xiaowen Chu
- Abstract要約: 本稿では,コミュニケーション効率のよい分散学習アルゴリズムの総合的な調査を行う。
まず,データ並列分散トレーニングアルゴリズムの分類法を提案する。
次に、これらの4次元の問題に対処する最先端の研究について検討する。
- 参考スコア(独自算出の注目度): 22.42450750097714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed deep learning (DL) has become prevalent in recent years to reduce
training time by leveraging multiple computing devices (e.g., GPUs/TPUs) due to
larger models and datasets. However, system scalability is limited by
communication becoming the performance bottleneck. Addressing this
communication issue has become a prominent research topic. In this paper, we
provide a comprehensive survey of the communication-efficient distributed
training algorithms, focusing on both system-level and algorithmic-level
optimizations. We first propose a taxonomy of data-parallel distributed
training algorithms that incorporates four primary dimensions: communication
synchronization, system architectures, compression techniques, and parallelism
of communication and computing tasks. We then investigate state-of-the-art
studies that address problems in these four dimensions. We also compare the
convergence rates of different algorithms to understand their convergence
speed. Additionally, we conduct extensive experiments to empirically compare
the convergence performance of various mainstream distributed training
algorithms. Based on our system-level communication cost analysis, theoretical
and experimental convergence speed comparison, we provide readers with an
understanding of which algorithms are more efficient under specific distributed
environments. Our research also extrapolates potential directions for further
optimizations.
- Abstract(参考訳): 分散ディープラーニング(DL)は、大規模なモデルとデータセットのために複数のコンピューティングデバイス(GPU/TPUなど)を活用することで、トレーニング時間を短縮するために近年普及している。
しかし、通信によってシステムのスケーラビリティは制限され、パフォーマンスのボトルネックとなる。
このコミュニケーション問題に対処することは、重要な研究テーマとなっている。
本稿では,システムレベルの最適化とアルゴリズムレベルの最適化に着目し,コミュニケーション効率の高い分散トレーニングアルゴリズムの総合的な調査を行う。
まず,通信同期,システムアーキテクチャ,圧縮技術,通信および計算タスクの並列性という,4つの主要な次元を組み込んだデータ並列分散トレーニングアルゴリズムの分類法を提案する。
次に,これら4次元の問題に対処する最先端の研究について検討する。
また、異なるアルゴリズムの収束速度を比較して収束速度を理解する。
さらに,各種主流分散学習アルゴリズムの収束性能を実証的に比較するための広範な実験を行った。
システムレベルの通信コスト分析,理論的および実験的収束速度比較に基づいて,特定の分散環境においてどのアルゴリズムがより効率的かを理解する。
我々の研究はまた、さらなる最適化のための潜在的な方向性を外挿する。
関連論文リスト
- Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey [43.57122822150023]
本稿では,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する文献調査を行う。
まず,大規模分散学習の文脈において,モデル同期と通信データ圧縮のための効率的なアルゴリズムを導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
論文 参考訳(メタデータ) (2024-04-09T08:35:04Z) - Asynchronous Local Computations in Distributed Bayesian Learning [8.516532665507835]
本稿では,高速な計算と通信オーバヘッドを同時に低減するために,ゴシップに基づく通信を提案する。
我々は、特に低データ範囲において、より高速な初期収束と性能精度の向上を観察する。
UCI MLレポジトリのガンマ望遠鏡とmHealthデータセットで,それぞれ平均78%,90%以上の分類精度を達成した。
論文 参考訳(メタデータ) (2023-11-06T20:11:41Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - AsySQN: Faster Vertical Federated Learning Algorithms with Better
Computation Resource Utilization [159.75564904944707]
垂直連合学習(VFL)のための非同期準ニュートン(AsySQN)フレームワークを提案する。
提案アルゴリズムは、逆ヘッセン行列を明示的に計算することなく、近似して降下ステップをスケールする。
本稿では,非同期計算を採用することにより,計算資源の有効利用が期待できることを示す。
論文 参考訳(メタデータ) (2021-09-26T07:56:10Z) - A Quantitative Survey of Communication Optimizations in Distributed Deep
Learning [19.514207840069616]
大規模で複雑なディープラーニング(DL)モデルは、複数のワーカマシンに分散的にトレーニングされている。
労働者間の大規模なコミュニケーションは、深刻なスケーリング問題を引き起こす。
本稿では,データ並列分散DLにおける通信最適化手法の定量的調査を行う。
論文 参考訳(メタデータ) (2020-05-27T09:12:48Z) - Scaling-up Distributed Processing of Data Streams for Machine Learning [10.581140430698103]
本稿では,計算・帯域幅制限方式における大規模分散最適化に着目した手法を最近開発した。
i)分散凸問題、(ii)分散主成分分析、(ii)グローバル収束を許容する幾何学的構造に関する非問題である。
論文 参考訳(メタデータ) (2020-05-18T16:28:54Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。