論文の概要: Is Network the Bottleneck of Distributed Training?
- arxiv url: http://arxiv.org/abs/2006.10103v3
- Date: Wed, 24 Jun 2020 19:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 21:29:56.549662
- Title: Is Network the Bottleneck of Distributed Training?
- Title(参考訳): ネットワークは分散トレーニングのボトルネックか?
- Authors: Zhen Zhang, Chaokun Chang, Haibin Lin, Yida Wang, Raman Arora, Xin Jin
- Abstract要約: 分散トレーニングのネットワーク性能を計測・解析するために,第1原理のアプローチを採用する。
ネットワークは低利用率で動作しており、ネットワークを十分に活用できれば、分散トレーニングは1に近いスケーリング係数を達成することができる。
- 参考スコア(独自算出の注目度): 36.925680383195356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently there has been a surge of research on improving the communication
efficiency of distributed training. However, little work has been done to
systematically understand whether the network is the bottleneck and to what
extent.
In this paper, we take a first-principles approach to measure and analyze the
network performance of distributed training. As expected, our measurement
confirms that communication is the component that blocks distributed training
from linear scale-out. However, contrary to the common belief, we find that the
network is running at low utilization and that if the network can be fully
utilized, distributed training can achieve a scaling factor of close to one.
Moreover, while many recent proposals on gradient compression advocate over
100x compression ratio, we show that under full network utilization, there is
no need for gradient compression in 100 Gbps network. On the other hand, a
lower speed network like 10 Gbps requires only 2x--5x gradients compression
ratio to achieve almost linear scale-out. Compared to application-level
techniques like gradient compression, network-level optimizations do not
require changes to applications and do not hurt the performance of trained
models. As such, we advocate that the real challenge of distributed training is
for the network community to develop high-performance network transport to
fully utilize the network capacity and achieve linear scale-out.
- Abstract(参考訳): 近年,分散トレーニングのコミュニケーション効率向上に関する研究が盛んに行われている。
しかし、ネットワークがボトルネックであるかどうかを体系的に理解する作業はほとんど行われていない。
本稿では,分散トレーニングのネットワーク性能を計測し,分析するための第一原理手法を提案する。
予想通り,線形スケールアウトから分散トレーニングをブロックするコンポーネントは通信であることを確認した。
しかし,ネットワークの利用率が低いことや,ネットワークを十分に活用できれば,分散トレーニングが1つに近いスケーリング係数を達成できることが,一般的な考え方とは対照的に見受けられる。
さらに,100倍圧縮率以上の勾配圧縮を提唱する最近の提案の多くは,完全なネットワーク利用下では,100Gbpsのネットワークで勾配圧縮を行う必要はないことを示唆している。
一方、10Gbpsのような低速ネットワークでは、ほぼ線形スケールアウトを達成するために2x--5x勾配圧縮比しか必要としない。
勾配圧縮のようなアプリケーションレベルの技術と比較すると、ネットワークレベルの最適化はアプリケーションの変更を必要とせず、訓練されたモデルの性能を損なわない。
したがって,分散トレーニングの真の課題は,ネットワークのキャパシティを完全に活用し,線形スケールアウトを実現するために,ネットワークコミュニティが高性能なネットワークトランスポートを開発することである。
関連論文リスト
- Distributed Training of Large Graph Neural Networks with Variable Communication Rates [71.7293735221656]
大きなグラフ上でグラフニューラルネットワーク(GNN)をトレーニングすることは、大きなメモリとコンピューティング要件のために、ユニークな課題を提示する。
グラフを複数のマシンに分割する分散GNNトレーニングは、大きなグラフ上でGNNをトレーニングするための一般的なアプローチである。
本稿では,学習モデルの精度を損なうことなく,分散GNNトレーニングにおける通信量を削減するための可変圧縮方式を提案する。
論文 参考訳(メタデータ) (2024-06-25T14:57:38Z) - Accelerating Distributed Deep Learning using Lossless Homomorphic
Compression [17.654138014999326]
本稿では,ワーカレベルの圧縮とネットワーク内アグリゲーションを効果的に融合する新しい圧縮アルゴリズムを提案する。
集約のスループットが6.33$times$改善され、イテレーションごとのトレーニング速度が3.74$times$アップします。
論文 参考訳(メタデータ) (2024-02-12T09:57:47Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Learned Gradient Compression for Distributed Deep Learning [16.892546958602303]
高次元データを含む大規模なデータセットでディープニューラルネットワークをトレーニングするには、大量の計算が必要です。
この問題の解決策は、データ並列分散トレーニングであり、モデルが複数の計算ノードに複製され、データの異なるチャンクにアクセスできる。
しかしこのアプローチは、各イテレーションでノード間で共有する必要がある計算された勾配のため、高い通信速度とレイテンシを必要とする。
論文 参考訳(メタデータ) (2021-03-16T06:42:36Z) - Moshpit SGD: Communication-Efficient Decentralized Training on
Heterogeneous Unreliable Devices [5.74369902800427]
大規模データセットでのディープニューラルネットワークのトレーニングは、複数の計算ノードを使用することで、しばしば加速される。
これらのプロトコルを大規模に実行するには、専用のクラスタでのみ利用できる信頼性の高い高速ネットワークが必要である。
グローバル平均に指数的に収束する反復平均化プロトコルであるMoshpit All-Reduceを提案する。
論文 参考訳(メタデータ) (2021-03-04T18:58:05Z) - Efficient Distributed Auto-Differentiation [22.192220404846267]
大規模ディープニューラルネットワーク(DNN)をトレーニングするための勾配ベースのアルゴリズムは通信量が多い。
グラデーションよりもコミュニケーションにやさしい分散型DNNをトレーニングするための驚くほど単純な統計を紹介します。
このプロセスは、バックプロパゲーション中のグラデーション平均の柔軟性を提供し、新しい柔軟なトレーニングスキーマを可能にします。
論文 参考訳(メタデータ) (2021-02-18T21:46:27Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - Activation Density driven Energy-Efficient Pruning in Training [2.222917681321253]
本研究では,トレーニング中にネットワークをリアルタイムでプーンする新しいプルーニング手法を提案する。
ベースラインネットワークに匹敵する精度で、非常に疎いネットワークを得る。
論文 参考訳(メタデータ) (2020-02-07T18:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。