論文の概要: Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2404.06114v1
- Date: Tue, 9 Apr 2024 08:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:29:31.351303
- Title: Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey
- Title(参考訳): コミュニケーション効率のよい大規模分散ディープラーニング:包括的調査
- Authors: Feng Liang, Zhen Zhang, Haifeng Lu, Victor C. M. Leung, Yanyi Guo, Xiping Hu,
- Abstract要約: 本稿では,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する文献調査を行う。
まず,大規模分散学習の文脈において,モデル同期と通信データ圧縮のための効率的なアルゴリズムを導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
- 参考スコア(独自算出の注目度): 43.57122822150023
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid growth in the volume of data sets, models, and devices in the domain of deep learning, there is increasing attention on large-scale distributed deep learning. In contrast to traditional distributed deep learning, the large-scale scenario poses new challenges that include fault tolerance, scalability of algorithms and infrastructures, and heterogeneity in data sets, models, and resources. Due to intensive synchronization of models and sharing of data across GPUs and computing nodes during distributed training and inference processes, communication efficiency becomes the bottleneck for achieving high performance at a large scale. This article surveys the literature over the period of 2018-2023 on algorithms and technologies aimed at achieving efficient communication in large-scale distributed deep learning at various levels, including algorithms, frameworks, and infrastructures. Specifically, we first introduce efficient algorithms for model synchronization and communication data compression in the context of large-scale distributed training. Next, we introduce efficient strategies related to resource allocation and task scheduling for use in distributed training and inference. After that, we present the latest technologies pertaining to modern communication infrastructures used in distributed deep learning with a focus on examining the impact of the communication overhead in a large-scale and heterogeneous setting. Finally, we conduct a case study on the distributed training of large language models at a large scale to illustrate how to apply these technologies in real cases. This article aims to offer researchers a comprehensive understanding of the current landscape of large-scale distributed deep learning and to reveal promising future research directions toward communication-efficient solutions in this scope.
- Abstract(参考訳): ディープラーニング分野におけるデータセット,モデル,デバイス量の急激な増加に伴い,大規模分散ディープラーニングへの注目が高まっている。
従来の分散ディープラーニングとは対照的に、大規模なシナリオでは、フォールトトレランス、アルゴリズムとインフラストラクチャのスケーラビリティ、データセット、モデル、リソースの不均一性など、新たな課題が発生している。
分散トレーニングと推論プロセスの間、モデルの集中的な同期とGPUと計算ノード間のデータの共有により、通信効率は大規模に高性能を実現するボトルネックとなる。
本稿では,アルゴリズム,フレームワーク,インフラストラクチャなど,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する2018-2023年の文献を調査する。
具体的には、大規模分散トレーニングの文脈において、モデル同期と通信データ圧縮のための効率的なアルゴリズムを最初に導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
その後,大規模で異種な環境下での通信オーバーヘッドの影響を検討することを目的とした,分散ディープラーニングに使用される現代的な通信基盤に関する最新の技術を紹介する。
最後に,大規模言語モデルの大規模分散学習について事例研究を行い,これらの技術を実例に適用する方法を説明する。
本稿では,大規模分散深層学習の現在の展望を包括的に理解し,この領域におけるコミュニケーション効率向上に向けた将来的な研究の方向性を明らかにすることを目的とする。
関連論文リスト
- On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - A Comprehensive Survey on Distributed Training of Graph Neural Networks [59.785830738482474]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーション分野において強力なアルゴリズムモデルであることが示されている。
GNNトレーニングを大規模かつ継続的なグラフにスケールアップするために、最も有望なソリューションは分散トレーニングである。
分散GNNトレーニングに関する研究の規模は、非常に広範であり、出版のペースは極めて速い。
論文 参考訳(メタデータ) (2022-11-10T06:22:12Z) - Privacy-Preserving Serverless Edge Learning with Decentralized Small
Data [13.254530176359182]
最近、分散トレーニング戦略は、ディープモデルをトレーニングする際のデータプライバシを保証するための有望なアプローチになっている。
本稿では、従来のサーバレスプラットフォームをサーバレスエッジ学習アーキテクチャで拡張し、ネットワークの観点から効率的な分散トレーニングフレームワークを提供する。
論文 参考訳(メタデータ) (2021-11-29T21:04:49Z) - How to Train Your Neural Network: A Comparative Evaluation [1.3654846342364304]
大規模分散ディープラーニングのための最先端フレームワークについて論じ,比較する。
大規模画像と言語訓練における性能を比較した実験結果を示す。
この結果に基づいて,性能を阻害する各フレームワークのアルゴリズム的部分と実装的部分について議論する。
論文 参考訳(メタデータ) (2021-11-09T04:24:42Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Quasi-Global Momentum: Accelerating Decentralized Deep Learning on
Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。
現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。
本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-02-09T11:27:14Z) - A Quantitative Survey of Communication Optimizations in Distributed Deep
Learning [19.514207840069616]
大規模で複雑なディープラーニング(DL)モデルは、複数のワーカマシンに分散的にトレーニングされている。
労働者間の大規模なコミュニケーションは、深刻なスケーリング問題を引き起こす。
本稿では,データ並列分散DLにおける通信最適化手法の定量的調査を行う。
論文 参考訳(メタデータ) (2020-05-27T09:12:48Z) - Scaling-up Distributed Processing of Data Streams for Machine Learning [10.581140430698103]
本稿では,計算・帯域幅制限方式における大規模分散最適化に着目した手法を最近開発した。
i)分散凸問題、(ii)分散主成分分析、(ii)グローバル収束を許容する幾何学的構造に関する非問題である。
論文 参考訳(メタデータ) (2020-05-18T16:28:54Z) - Communication-Efficient Distributed Deep Learning: A Comprehensive
Survey [22.42450750097714]
本稿では,コミュニケーション効率のよい分散学習アルゴリズムの総合的な調査を行う。
まず,データ並列分散トレーニングアルゴリズムの分類法を提案する。
次に、これらの4次元の問題に対処する最先端の研究について検討する。
論文 参考訳(メタデータ) (2020-03-10T05:42:44Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。