論文の概要: Communication-Efficient Distributed Deep Learning: A Comprehensive
Survey
- arxiv url: http://arxiv.org/abs/2003.06307v1
- Date: Tue, 10 Mar 2020 05:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 21:55:28.063796
- Title: Communication-Efficient Distributed Deep Learning: A Comprehensive
Survey
- Title(参考訳): コミュニケーション効率のよい分散ディープラーニング:包括的調査
- Authors: Zhenheng Tang, Shaohuai Shi, Xiaowen Chu, Wei Wang, Bo Li
- Abstract要約: 分散ディープラーニングにおけるコミュニケーション問題への対処法は,近年ホットな研究トピックになりつつある。
本稿では,システムレベルの最適化とアルゴリズムレベルの最適化の両方において,コミュニケーション効率のよい分散トレーニングアルゴリズムを包括的に調査する。
- 参考スコア(独自算出の注目度): 20.116769256883195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed deep learning becomes very common to reduce the overall training
time by exploiting multiple computing devices (e.g., GPUs/TPUs) as the size of
deep models and data sets increases. However, data communication between
computing devices could be a potential bottleneck to limit the system
scalability. How to address the communication problem in distributed deep
learning is becoming a hot research topic recently. In this paper, we provide a
comprehensive survey of the communication-efficient distributed training
algorithms in both system-level and algorithmic-level optimizations. In the
system-level, we demystify the system design and implementation to reduce the
communication cost. In algorithmic-level, we compare different algorithms with
theoretical convergence bounds and communication complexity. Specifically, we
first propose the taxonomy of data-parallel distributed training algorithms,
which contains four main dimensions: communication synchronization, system
architectures, compression techniques, and parallelism of communication and
computing. Then we discuss the studies in addressing the problems of the four
dimensions to compare the communication cost. We further compare the
convergence rates of different algorithms, which enable us to know how fast the
algorithms can converge to the solution in terms of iterations. According to
the system-level communication cost analysis and theoretical convergence speed
comparison, we provide the readers to understand what algorithms are more
efficient under specific distributed environments and extrapolate potential
directions for further optimizations.
- Abstract(参考訳): 分散ディープラーニングは、ディープモデルやデータセットのサイズが大きくなるにつれて、複数のコンピューティングデバイス(gpuやtpuなど)を活用することで、トレーニング時間全体の削減に非常に一般的なものになる。
しかしながら、コンピューティングデバイス間のデータ通信は、システムのスケーラビリティを制限する潜在的なボトルネックになり得る。
分散ディープラーニングにおけるコミュニケーション問題への対処法は,近年ホットな研究トピックになりつつある。
本稿では,システムレベルの最適化とアルゴリズムレベルの最適化の両方において,通信効率のよい分散学習アルゴリズムの包括的調査を行う。
システムレベルでは、通信コストを削減するため、システム設計と実装をデミスティフィケートする。
アルゴリズムレベルでは、異なるアルゴリズムと理論収束境界と通信複雑性を比較する。
具体的には、まず、通信同期、システムアーキテクチャ、圧縮技術、通信とコンピューティングの並列性という4つの主次元を含むデータ並列分散トレーニングアルゴリズムの分類法を提案する。
次に,コミュニケーションコストを比較するために,4次元の問題に対処する研究について述べる。
さらに、異なるアルゴリズムの収束率を比較することで、反復の観点からアルゴリズムがどの程度の速度で解に収束できるかを知ることができる。
システムレベルの通信コスト分析と理論収束速度比較により、特定の分散環境においてどのアルゴリズムがより効率的かを理解し、潜在的な方向を推定し、さらなる最適化を行うことができる。
関連論文リスト
- Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey [43.57122822150023]
本稿では,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する文献調査を行う。
まず,大規模分散学習の文脈において,モデル同期と通信データ圧縮のための効率的なアルゴリズムを導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
論文 参考訳(メタデータ) (2024-04-09T08:35:04Z) - Asynchronous Local Computations in Distributed Bayesian Learning [8.516532665507835]
本稿では,高速な計算と通信オーバヘッドを同時に低減するために,ゴシップに基づく通信を提案する。
我々は、特に低データ範囲において、より高速な初期収束と性能精度の向上を観察する。
UCI MLレポジトリのガンマ望遠鏡とmHealthデータセットで,それぞれ平均78%,90%以上の分類精度を達成した。
論文 参考訳(メタデータ) (2023-11-06T20:11:41Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - AsySQN: Faster Vertical Federated Learning Algorithms with Better
Computation Resource Utilization [159.75564904944707]
垂直連合学習(VFL)のための非同期準ニュートン(AsySQN)フレームワークを提案する。
提案アルゴリズムは、逆ヘッセン行列を明示的に計算することなく、近似して降下ステップをスケールする。
本稿では,非同期計算を採用することにより,計算資源の有効利用が期待できることを示す。
論文 参考訳(メタデータ) (2021-09-26T07:56:10Z) - A Quantitative Survey of Communication Optimizations in Distributed Deep
Learning [19.514207840069616]
大規模で複雑なディープラーニング(DL)モデルは、複数のワーカマシンに分散的にトレーニングされている。
労働者間の大規模なコミュニケーションは、深刻なスケーリング問題を引き起こす。
本稿では,データ並列分散DLにおける通信最適化手法の定量的調査を行う。
論文 参考訳(メタデータ) (2020-05-27T09:12:48Z) - Scaling-up Distributed Processing of Data Streams for Machine Learning [10.581140430698103]
本稿では,計算・帯域幅制限方式における大規模分散最適化に着目した手法を最近開発した。
i)分散凸問題、(ii)分散主成分分析、(ii)グローバル収束を許容する幾何学的構造に関する非問題である。
論文 参考訳(メタデータ) (2020-05-18T16:28:54Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。