論文の概要: Domain-specific Communication Optimization for Distributed DNN Training
- arxiv url: http://arxiv.org/abs/2008.08445v1
- Date: Sun, 16 Aug 2020 09:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:06:50.248858
- Title: Domain-specific Communication Optimization for Distributed DNN Training
- Title(参考訳): 分散DNN訓練のためのドメイン固有通信最適化
- Authors: Hao Wang, Jingrong Chen, Xinchen Wan, Han Tian, Jiacheng Xia, Gaoxiong
Zeng, Weiyan Wang, Kai Chen, Wei Bai, Junchen Jiang
- Abstract要約: 本稿では,DNN訓練の通信オーバーヘッドをきめ細かな方法で最適化するために,ディープラーニングのドメイン固有性を利用した新しいソリューションDLCPを提案する。
これは、SGDベースのトレーニングの有界損失耐性を利用して、勾配圧縮によって純粋に回避できない尾の通信遅延を改善する。
その後、フローレベルのスケジューリングとは対照的に、粒度の細かいパケットレベルの優先順位付けとドロップを行い、グレードの層や大きさに基づいて、精度に影響を与えることなくモデル収束をさらに高速化する。
- 参考スコア(独自算出の注目度): 10.781867496460837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication overhead poses an important obstacle to distributed DNN
training and draws increasing attention in recent years. Despite continuous
efforts, prior solutions such as gradient compression/reduction,
compute/communication overlapping and layer-wise flow scheduling, etc., are
still coarse-grained and insufficient for an efficient distributed training
especially when the network is under pressure. We present DLCP, a novel
solution exploiting the domain-specific properties of deep learning to optimize
communication overhead of DNN training in a fine-grained manner. At its heart,
DLCP comprises of several key innovations beyond prior work: e.g., it exploits
{\em bounded loss tolerance} of SGD-based training to improve tail
communication latency which cannot be avoided purely through gradient
compression. It then performs fine-grained packet-level prioritization and
dropping, as opposed to flow-level scheduling, based on layers and magnitudes
of gradients to further speedup model convergence without affecting accuracy.
In addition, it leverages inter-packet order-independency to perform per-packet
load balancing without causing classical re-ordering issues. DLCP works with
both Parameter Server and collective communication routines. We have
implemented DLCP with commodity switches, integrated it with various training
frameworks including TensorFlow, MXNet and PyTorch, and deployed it in our
small-scale testbed with 10 Nvidia V100 GPUs. Our testbed experiments and
large-scale simulations show that DLCP delivers up to $84.3\%$ additional
training acceleration over the best existing solutions.
- Abstract(参考訳): コミュニケーションのオーバーヘッドは分散DNNトレーニングにとって重要な障害となり、近年注目を集めている。
連続的な努力にもかかわらず、特にネットワークが圧力下にある場合、勾配圧縮/縮小、計算/通信オーバーラップ、層単位のフロースケジューリングといった先行ソリューションは依然として粗く、効率的な分散トレーニングには不十分である。
本稿では,DNN訓練の通信オーバーヘッドをきめ細かな方法で最適化するために,ディープラーニングのドメイン固有性を利用した新しいソリューションDLCPを提案する。
例えば、SGDベースのトレーニングでは、勾配圧縮によって純粋に回避できない尾の通信遅延を改善するために、境界付き損失耐性を活用できる。
次に、フローレベルのスケジューリングとは対照的に、粒度の細かいパケットレベルの優先順位付けとドロップを実行し、層と勾配の大きさに基づいて、精度に影響を与えることなくモデルの収束をさらにスピードアップする。
さらに、パッケージ間順序独立性を利用して、古典的な再注文問題を引き起こすことなく、パック毎のロードバランシングを実行する。
DLCPはパラメータサーバと集合通信ルーチンの両方で動作する。
DLCPをコモディティスイッチで実装し、TensorFlow、MXNet、PyTorchといったさまざまなトレーニングフレームワークと統合し、10台のNvidia V100 GPUで小規模なテストベッドにデプロイしました。
我々のテストベッド実験と大規模シミュレーションは、DLCPが最高の既存のソリューションに対して最大84.3 %のトレーニング加速を提供することを示している。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Structure-Preserving Network Compression Via Low-Rank Induced Training Through Linear Layers Composition [11.399520888150468]
ローランド誘導訓練(LoRITa)と呼ばれる理論的修正手法を提案する。
LoRITaは線形層を構成することで低ランク化を促進し、特異値切り込みを用いて圧縮する。
我々は,完全連結ネットワーク上でのMNIST,視覚変換器上でのCIFAR10,畳み込みニューラルネットワーク上でのCIFAR10/100と画像ネットを用いたアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-05-06T00:58:23Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - Boosting Distributed Full-graph GNN Training with Asynchronous One-bit
Communication [23.883543151975136]
大規模なグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、高いメモリ要求と限られたGPUメモリとの競合のため、難しい。
本稿では,GNNにおける1ビット量子化計算手法を用いた分散GNN学習フレームワークSylvieを提案する。
詳細は、Sylvie氏は、送信したデータを定量化し、受信したデータを各レイヤの完全な精度の値に戻すための軽量な低ビットモジュールを提供する。
論文 参考訳(メタデータ) (2023-03-02T14:02:39Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Is Network the Bottleneck of Distributed Training? [36.925680383195356]
分散トレーニングのネットワーク性能を計測・解析するために,第1原理のアプローチを採用する。
ネットワークは低利用率で動作しており、ネットワークを十分に活用できれば、分散トレーニングは1に近いスケーリング係数を達成することができる。
論文 参考訳(メタデータ) (2020-06-17T19:00:31Z) - Caramel: Accelerating Decentralized Distributed Deep Learning with
Computation Scheduling [1.5785002371773138]
Caramelは、AllReduceのモデル認識スケジューリングと通信最適化を通じて分散ディープラーニングを高速化するシステムである。
Caramelは、データフローモデルの正確性を維持し、ハードウェアに依存しず、ユーザーレベルやフレームワークレベルの変更を一切必要としない。
論文 参考訳(メタデータ) (2020-04-29T08:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。