論文の概要: WRHT: Efficient All-reduce for Distributed DNN Training in Optical
Interconnect System
- arxiv url: http://arxiv.org/abs/2207.10982v1
- Date: Fri, 22 Jul 2022 10:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 13:36:47.137064
- Title: WRHT: Efficient All-reduce for Distributed DNN Training in Optical
Interconnect System
- Title(参考訳): WRHT:光インターコネクションシステムにおける分散DNNトレーニングのための効率的なオールリデューサ
- Authors: Fei Dai, Yawen Chen, Zhiyi Huang, Haibo Zhang, and Fangfang Zhang
- Abstract要約: 光配線系における全リデュース動作を実現するためのWRHT(Wavelength Reused Hierarchical Tree)を提案する。
WRHTは、電気的相互接続システムにおける既存の2つの全リデュースアルゴリズムと比較して、全リデュース動作の通信時間を86.69%、84.71%削減することができる。
- 参考スコア(独自算出の注目度): 5.289235881852288
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Communication efficiency plays an important role in accelerating the
distributed training of Deep Neural Networks (DNN). All-reduce is the key
communication primitive to reduce model parameters in distributed DNN training.
Most existing all-reduce algorithms are designed for traditional electrical
interconnect systems, which cannot meet the communication requirements for
distributed training of large DNNs. One of the promising alternatives for
electrical interconnect is optical interconnect, which can provide high
bandwidth, low transmission delay, and low power cost. We propose an efficient
scheme called WRHT (Wavelength Reused Hierarchical Tree) for implementing
all-reduce operation in optical interconnect system, which can take advantage
of WDM (Wavelength Division Multiplexing) to reduce the communication time of
distributed data-parallel DNN training. We further derive the minimum number of
communication steps and communication time to realize the all-reduce using
WRHT. Simulation results show that the communication time of WRHT is reduced by
75.59%, 49.25%, and 70.1% respectively compared with three traditional
all-reduce algorithms simulated in optical interconnect system. Simulation
results also show that WRHT can reduce the communication time for all-reduce
operation by 86.69% and 84.71% in comparison with two existing all-reduce
algorithms in electrical interconnect system.
- Abstract(参考訳): 通信効率はディープニューラルネットワーク(DNN)の分散トレーニングを加速する上で重要な役割を果たす。
All-reduceは分散DNNトレーニングにおいてモデルパラメータを減らすための重要な通信プリミティブである。
既存のall-reduceアルゴリズムのほとんどは、大規模dnnの分散トレーニングの通信要件を満たさない従来の電気インターコネクトシステム向けに設計されている。
電気インターコネクトの有望な選択肢の1つは光配線であり、高帯域幅、低伝送遅延、低電力コストを提供することができる。
我々は、WDM(Wavelength Division Multiplexing)を利用して分散データ並列DNNトレーニングの通信時間を短縮できる、光配線系における全リデュース操作を実現するWRHT(Wavelength Reused Hierarchical Tree)と呼ばれる効率的なスキームを提案する。
さらに、wrhtを用いた全reduceを実現するために、通信ステップの最小数と通信時間を導出する。
シミュレーションの結果、WRHTの通信時間はそれぞれ75.59%、49.25%、70.1%減少し、従来の3つのオールリデュースアルゴリズムは光配線系でシミュレートされた。
シミュレーションの結果、wrhtは、電気配線システムにおける既存の2つの全還元アルゴリズムと比較して、全還元動作の通信時間を86.69%と84.71%削減できることが示されている。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - The Robustness of Spiking Neural Networks in Communication and its Application towards Network Efficiency in Federated Learning [6.9569682335746235]
スパイキングニューラルネットワーク(SNN)は最近、組み込みデバイスでのオンチップ学習に多大な関心を集めている。
本稿では,フェデレートラーニングにおける雑音の多いコミュニケーション下でのSNNの本質的ロバスト性について検討する。
FLトレーニングにおける帯域幅の削減を目的とした,TopKスパシフィケーションを用いた新しいフェデレートラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-19T13:37:18Z) - DeAR: Accelerating Distributed Deep Learning with Fine-Grained
All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。
本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。
DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2023-02-24T04:11:18Z) - Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated
Split Learning [56.125720497163684]
無線ネットワークにおけるハイブリッド・フェデレーション・スプリット・ラーニング・フレームワークを提案する。
ラベル共有のないモデル分割のための並列計算方式を設計し,提案方式が収束速度に与える影響を理論的に解析する。
論文 参考訳(メタデータ) (2022-09-02T10:29:56Z) - Federated Learning over Wireless IoT Networks with Optimized
Communication and Resources [98.18365881575805]
協調学習技術のパラダイムとしてのフェデレートラーニング(FL)は研究の注目を集めている。
無線システム上での高速応答および高精度FLスキームの検証が重要である。
提案する通信効率のよいフェデレーション学習フレームワークは,強い線形速度で収束することを示す。
論文 参考訳(メタデータ) (2021-10-22T13:25:57Z) - Limited-Fronthaul Cell-Free Hybrid Beamforming with Distributed Deep
Neural Network [0.0]
近接最適解は、アクセスポイント(AP)とネットワークコントローラ(NC)の間で大量の信号交換を必要とする。
本稿では,AP と NC 間の通信オーバーヘッドをゼロあるいは限定して協調ハイブリッドビームフォーミングを行うことができる2つの非教師なしディープニューラルネットワーク(DNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-30T16:42:32Z) - Energy-Efficient Model Compression and Splitting for Collaborative
Inference Over Time-Varying Channels [52.60092598312894]
本稿では,エッジノードとリモートノード間のモデル圧縮と時間変化モデル分割を利用して,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。
提案手法は, 検討されたベースラインと比較して, エネルギー消費が最小限であり, 排出コストが$CO$となる。
論文 参考訳(メタデータ) (2021-06-02T07:36:27Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - LCP: A Low-Communication Parallelization Method for Fast Neural Network
Inference in Image Recognition [33.581285906182075]
そこで本研究では, ほぼ独立な複数の枝と狭い枝からなるモデルを用いた低通信並列化手法を提案する。
当社では,AWSインスタンス,Raspberry Pi,PYNQボードという,3つの分散システムにLCPモデルをデプロイしています。
LCPモデルは、オリジナルのモデルと比べて56倍と7倍の平均的なスピードアップを達成し、平均的なスピードアップを33倍に改善することができた。
論文 参考訳(メタデータ) (2020-03-13T19:52:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。