論文の概要: Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2404.06114v1
- Date: Tue, 9 Apr 2024 08:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:29:31.351303
- Title: Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey
- Title(参考訳): コミュニケーション効率のよい大規模分散ディープラーニング:包括的調査
- Authors: Feng Liang, Zhen Zhang, Haifeng Lu, Victor C. M. Leung, Yanyi Guo, Xiping Hu,
- Abstract要約: 本稿では,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する文献調査を行う。
まず,大規模分散学習の文脈において,モデル同期と通信データ圧縮のための効率的なアルゴリズムを導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
- 参考スコア(独自算出の注目度): 43.57122822150023
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rapid growth in the volume of data sets, models, and devices in the domain of deep learning, there is increasing attention on large-scale distributed deep learning. In contrast to traditional distributed deep learning, the large-scale scenario poses new challenges that include fault tolerance, scalability of algorithms and infrastructures, and heterogeneity in data sets, models, and resources. Due to intensive synchronization of models and sharing of data across GPUs and computing nodes during distributed training and inference processes, communication efficiency becomes the bottleneck for achieving high performance at a large scale. This article surveys the literature over the period of 2018-2023 on algorithms and technologies aimed at achieving efficient communication in large-scale distributed deep learning at various levels, including algorithms, frameworks, and infrastructures. Specifically, we first introduce efficient algorithms for model synchronization and communication data compression in the context of large-scale distributed training. Next, we introduce efficient strategies related to resource allocation and task scheduling for use in distributed training and inference. After that, we present the latest technologies pertaining to modern communication infrastructures used in distributed deep learning with a focus on examining the impact of the communication overhead in a large-scale and heterogeneous setting. Finally, we conduct a case study on the distributed training of large language models at a large scale to illustrate how to apply these technologies in real cases. This article aims to offer researchers a comprehensive understanding of the current landscape of large-scale distributed deep learning and to reveal promising future research directions toward communication-efficient solutions in this scope.
- Abstract(参考訳): ディープラーニング分野におけるデータセット,モデル,デバイス量の急激な増加に伴い,大規模分散ディープラーニングへの注目が高まっている。
従来の分散ディープラーニングとは対照的に、大規模なシナリオでは、フォールトトレランス、アルゴリズムとインフラストラクチャのスケーラビリティ、データセット、モデル、リソースの不均一性など、新たな課題が発生している。
分散トレーニングと推論プロセスの間、モデルの集中的な同期とGPUと計算ノード間のデータの共有により、通信効率は大規模に高性能を実現するボトルネックとなる。
本稿では,アルゴリズム,フレームワーク,インフラストラクチャなど,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する2018-2023年の文献を調査する。
具体的には、大規模分散トレーニングの文脈において、モデル同期と通信データ圧縮のための効率的なアルゴリズムを最初に導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
その後,大規模で異種な環境下での通信オーバーヘッドの影響を検討することを目的とした,分散ディープラーニングに使用される現代的な通信基盤に関する最新の技術を紹介する。
最後に,大規模言語モデルの大規模分散学習について事例研究を行い,これらの技術を実例に適用する方法を説明する。
本稿では,大規模分散深層学習の現在の展望を包括的に理解し,この領域におけるコミュニケーション効率向上に向けた将来的な研究の方向性を明らかにすることを目的とする。
関連論文リスト
- High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey [48.06362354403557]
本調査は,大規模分散DLの効率的な資源配分とワークロードスケジューリング戦略について,主に2019年から2024年までの文献を概説する。
トピックごとに重要な課題を強調し、既存の技術に関する重要な洞察について議論する。
この調査は、コンピュータ科学、人工知能、通信研究者が最近の進歩を理解することを奨励することを目的としている。
論文 参考訳(メタデータ) (2024-06-12T11:51:44Z) - A Survey of Distributed Learning in Cloud, Mobile, and Edge Settings [1.0589208420411014]
この調査では、クラウドとエッジ設定を含む分散学習の状況について調査する。
データとモデルの並列性という中核的な概念を掘り下げて、モデルをさまざまな次元と層に分割して、リソースの利用とパフォーマンスを最適化する方法を調べます。
計算効率,通信オーバヘッド,メモリ制約のトレードオフを浮き彫りにして,完全接続層,畳み込み層,繰り返し層など,さまざまなレイヤタイプに対するパーティショニング方式を解析する。
論文 参考訳(メタデータ) (2024-05-23T22:00:38Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - Privacy-Preserving Serverless Edge Learning with Decentralized Small
Data [13.254530176359182]
最近、分散トレーニング戦略は、ディープモデルをトレーニングする際のデータプライバシを保証するための有望なアプローチになっている。
本稿では、従来のサーバレスプラットフォームをサーバレスエッジ学習アーキテクチャで拡張し、ネットワークの観点から効率的な分散トレーニングフレームワークを提供する。
論文 参考訳(メタデータ) (2021-11-29T21:04:49Z) - A Quantitative Survey of Communication Optimizations in Distributed Deep
Learning [19.514207840069616]
大規模で複雑なディープラーニング(DL)モデルは、複数のワーカマシンに分散的にトレーニングされている。
労働者間の大規模なコミュニケーションは、深刻なスケーリング問題を引き起こす。
本稿では,データ並列分散DLにおける通信最適化手法の定量的調査を行う。
論文 参考訳(メタデータ) (2020-05-27T09:12:48Z) - Communication-Efficient Distributed Deep Learning: A Comprehensive
Survey [22.42450750097714]
本稿では,コミュニケーション効率のよい分散学習アルゴリズムの総合的な調査を行う。
まず,データ並列分散トレーニングアルゴリズムの分類法を提案する。
次に、これらの4次元の問題に対処する最先端の研究について検討する。
論文 参考訳(メタデータ) (2020-03-10T05:42:44Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。