論文の概要: Communication Optimization for Distributed Training: Architecture,
Advances, and Opportunities
- arxiv url: http://arxiv.org/abs/2403.07585v1
- Date: Tue, 12 Mar 2024 12:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:46:46.888628
- Title: Communication Optimization for Distributed Training: Architecture,
Advances, and Opportunities
- Title(参考訳): 分散トレーニングのためのコミュニケーション最適化:アーキテクチャ、進歩、機会
- Authors: Yunze Wei, Tianshuo Hu, Cong Liang, Yong Cui
- Abstract要約: 分散ディープニューラルネットワークトレーニングの一般的なアーキテクチャを導入し、並列化戦略、集合通信ライブラリ、ネットワーク間の関係を分析する。
現在の3層パラダイムのレイヤは比較的独立しているが、分散トレーニングシナリオでは、層間協調最適化のための豊富な設計スペースがある。
- 参考スコア(独自算出の注目度): 4.855403267033463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The past few years have witnessed the flourishing of large-scale deep neural
network models with ever-growing parameter numbers. Training such large-scale
models typically requires massive memory and computing resources that exceed
those of a single GPU, necessitating distributed training. As GPU performance
has rapidly evolved in recent years, computation time has shrunk, thereby
increasing the proportion of communication in the overall training time.
Therefore, optimizing communication for distributed training has become an
urgent issue. In this article, we briefly introduce the general architecture of
distributed deep neural network training and analyze relationships among
Parallelization Strategy, Collective Communication Library, and Network from
the perspective of communication optimization, which forms a three-layer
paradigm. We then review current representative research advances with this
three-layer paradigm. We find that layers in the current three-layer paradigm
are relatively independent, but there is a rich design space for cross-layer
collaborative optimization in distributed training scenarios. Therefore, we
further advocate a communication-efficient five-layer paradigm underlining
opportunities for collaboration designs and look forward to the perspectives of
"Vertical", "Horizontal", "Intra-Inter" and "Host-Net" collaboration designs.
We hope this article can shed some light on future research on communication
optimization for distributed training.
- Abstract(参考訳): 過去数年間、パラメータ数が増え続ける大規模ディープニューラルネットワークモデルの隆盛を目撃してきた。
このような大規模モデルのトレーニングは、通常、単一のGPUを超える大量のメモリとコンピューティングリソースを必要とし、分散トレーニングを必要とする。
近年GPUの性能が急速に向上するにつれて、計算時間が減少し、全体としての通信の割合が増加した。
そのため,分散学習におけるコミュニケーションの最適化が急務となっている。
本稿では,分散ディープニューラルネットワークトレーニングの一般アーキテクチャを簡潔に紹介するとともに,3層パラダイムを形成する通信最適化の観点から,並列化戦略,集合的通信ライブラリ,ネットワーク間の関係を分析する。
次に、この3層パラダイムによる現在の代表的な研究動向についてレビューする。
現在の3層パラダイムのレイヤは比較的独立しているが、分散トレーニングシナリオでは、層間協調最適化のための豊富な設計スペースがある。
そこで我々は,コラボレーションデザインの機会を概説するコミュニケーション効率の高い5層パラダイムを更に提唱し,"vertical","horizontal","intra-inter","host-net"コラボレーションデザインの展望を展望する。
この記事では、分散トレーニングのためのコミュニケーション最適化に関する今後の研究について光を当てたい。
関連論文リスト
- Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey [43.57122822150023]
本稿では,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する文献調査を行う。
まず,大規模分散学習の文脈において,モデル同期と通信データ圧縮のための効率的なアルゴリズムを導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
論文 参考訳(メタデータ) (2024-04-09T08:35:04Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Towards a Better Theoretical Understanding of Independent Subnetwork
Training [2.2147691173934967]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Parallel Training of Deep Networks with Local Updates [84.30918922367442]
ローカル並列性(Local Parallelism)は、グローバルバックプロパゲーションを切り捨てられたレイヤワイズバックプロパゲーションに置き換えることで、ディープネットワーク内の個々のレイヤのトレーニングを並列化するフレームワークである。
我々は、様々なアーキテクチャセットにわたるビジョンと言語領域の両方で結果を示し、局所的並列性は特に高コンピュートなシステムにおいて有効であることを見出した。
論文 参考訳(メタデータ) (2020-12-07T16:38:45Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - Communication-Efficient Distributed Deep Learning: A Comprehensive
Survey [22.42450750097714]
本稿では,コミュニケーション効率のよい分散学習アルゴリズムの総合的な調査を行う。
まず,データ並列分散トレーニングアルゴリズムの分類法を提案する。
次に、これらの4次元の問題に対処する最先端の研究について検討する。
論文 参考訳(メタデータ) (2020-03-10T05:42:44Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。