論文の概要: Communication Optimization for Distributed Training: Architecture,
Advances, and Opportunities
- arxiv url: http://arxiv.org/abs/2403.07585v1
- Date: Tue, 12 Mar 2024 12:15:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:46:46.888628
- Title: Communication Optimization for Distributed Training: Architecture,
Advances, and Opportunities
- Title(参考訳): 分散トレーニングのためのコミュニケーション最適化:アーキテクチャ、進歩、機会
- Authors: Yunze Wei, Tianshuo Hu, Cong Liang, Yong Cui
- Abstract要約: 分散ディープニューラルネットワークトレーニングの一般的なアーキテクチャを導入し、並列化戦略、集合通信ライブラリ、ネットワーク間の関係を分析する。
現在の3層パラダイムのレイヤは比較的独立しているが、分散トレーニングシナリオでは、層間協調最適化のための豊富な設計スペースがある。
- 参考スコア(独自算出の注目度): 4.855403267033463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The past few years have witnessed the flourishing of large-scale deep neural
network models with ever-growing parameter numbers. Training such large-scale
models typically requires massive memory and computing resources that exceed
those of a single GPU, necessitating distributed training. As GPU performance
has rapidly evolved in recent years, computation time has shrunk, thereby
increasing the proportion of communication in the overall training time.
Therefore, optimizing communication for distributed training has become an
urgent issue. In this article, we briefly introduce the general architecture of
distributed deep neural network training and analyze relationships among
Parallelization Strategy, Collective Communication Library, and Network from
the perspective of communication optimization, which forms a three-layer
paradigm. We then review current representative research advances with this
three-layer paradigm. We find that layers in the current three-layer paradigm
are relatively independent, but there is a rich design space for cross-layer
collaborative optimization in distributed training scenarios. Therefore, we
further advocate a communication-efficient five-layer paradigm underlining
opportunities for collaboration designs and look forward to the perspectives of
"Vertical", "Horizontal", "Intra-Inter" and "Host-Net" collaboration designs.
We hope this article can shed some light on future research on communication
optimization for distributed training.
- Abstract(参考訳): 過去数年間、パラメータ数が増え続ける大規模ディープニューラルネットワークモデルの隆盛を目撃してきた。
このような大規模モデルのトレーニングは、通常、単一のGPUを超える大量のメモリとコンピューティングリソースを必要とし、分散トレーニングを必要とする。
近年GPUの性能が急速に向上するにつれて、計算時間が減少し、全体としての通信の割合が増加した。
そのため,分散学習におけるコミュニケーションの最適化が急務となっている。
本稿では,分散ディープニューラルネットワークトレーニングの一般アーキテクチャを簡潔に紹介するとともに,3層パラダイムを形成する通信最適化の観点から,並列化戦略,集合的通信ライブラリ,ネットワーク間の関係を分析する。
次に、この3層パラダイムによる現在の代表的な研究動向についてレビューする。
現在の3層パラダイムのレイヤは比較的独立しているが、分散トレーニングシナリオでは、層間協調最適化のための豊富な設計スペースがある。
そこで我々は,コラボレーションデザインの機会を概説するコミュニケーション効率の高い5層パラダイムを更に提唱し,"vertical","horizontal","intra-inter","host-net"コラボレーションデザインの展望を展望する。
この記事では、分散トレーニングのためのコミュニケーション最適化に関する今後の研究について光を当てたい。
関連論文リスト
- From promise to practice: realizing high-performance decentralized training [8.955918346078935]
ディープニューラルネットワークの分散トレーニングは、All-Reduceのような同期データ並列メソッドよりも理論的に優れたスケーラビリティのために大きな注目を集めている。
本稿では、All-Reduceトレーニングのスピードアップにつながる3つの重要な要因を特定し、いつ、どのように、どの程度の分散化によって、より短い実行時間が得られるかを決定するランタイムモデルを構築する。
論文 参考訳(メタデータ) (2024-10-15T19:04:56Z) - Communication-Efficient Large-Scale Distributed Deep Learning: A Comprehensive Survey [43.57122822150023]
本稿では,大規模分散ディープラーニングにおける効率的なコミュニケーションの実現を目的とした,アルゴリズムと技術に関する文献調査を行う。
まず,大規模分散学習の文脈において,モデル同期と通信データ圧縮のための効率的なアルゴリズムを導入する。
次に、分散トレーニングおよび推論におけるリソース割り当てとタスクスケジューリングに関する効率的な戦略を導入する。
論文 参考訳(メタデータ) (2024-04-09T08:35:04Z) - Partitioned Neural Network Training via Synthetic Intermediate Labels [0.0]
GPUメモリの制約は、そのような巨大なモデルをトレーニングする上で、注目すべきボトルネックになっている。
この研究は、モデルをGPU間で分割し、個々のセグメントをトレーニングするために合成中間ラベルを生成することを提唱する。
このアプローチは、モデル精度を維持しながらデータ通信を最小限に抑える、より効率的なトレーニングプロセスをもたらす。
論文 参考訳(メタデータ) (2024-03-17T13:06:29Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - The Case for Strong Scaling in Deep Learning: Training Large 3D CNNs
with Hybrid Parallelism [3.4377970608678314]
大規模3次元畳み込みニューラルネットワークを学習するためのスケーラブルなハイブリッド並列アルゴリズムを提案する。
提案したトレーニングアルゴリズムを,CosmoFlowと3D U-Netの2つの挑戦的な3D CNNを用いて評価した。
論文 参考訳(メタデータ) (2020-07-25T05:06:06Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。