論文の概要: Themis: A Network Bandwidth-Aware Collective Scheduling Policy for
Distributed Training of DL Models
- arxiv url: http://arxiv.org/abs/2110.04478v1
- Date: Sat, 9 Oct 2021 06:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 20:59:19.827025
- Title: Themis: A Network Bandwidth-Aware Collective Scheduling Policy for
Distributed Training of DL Models
- Title(参考訳): Themis: DLモデルの分散トレーニングのためのネットワーク帯域対応集合スケジューリングポリシー
- Authors: Saeed Rashidi, William Won, Sudarshan Srinivasan, Srinivas Sridharan,
Tushar Krishna
- Abstract要約: 分散トレーニングは、タスクを複数のNPUに分割することで、トレーニング時間を短縮するソリューションである。
Themisは、すべての次元にわたる通信負荷のバランスをとるために、グループを動的にスケジュールする新しい集合スケジューリングスキームである。
Themisは平均して1.88x(2.92xmax)で1つのAll-ReduceのネットワークBW利用を改善することができる。
- 参考スコア(独自算出の注目度): 2.6599014990168834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continuous growth in both size and training data for modern Deep Neural
Networks (DNNs) models has led to training tasks taking days or even months.
Distributed training is a solution to reduce training time by splitting the
task across multiple NPUs (e.g., GPU/TPU). However, distributed training adds
communication overhead between the NPUs in order to synchronize the gradients
and/or activation, depending on the parallelization strategy. In today's
datacenters, for training at scale, NPUs are connected through
multi-dimensional interconnection links with different bandwidth and latency.
Hence, keeping all network dimensions busy and maximizing the network BW is a
challenging task in such a hybrid network environment, as this work identifies.
We propose Themis, a novel collective scheduling scheme that dynamically
schedules collectives (divided into chunks) to balance the communication loads
across all dimensions, further improving the network BW utilization. Our
results show that on average, Themis can improve the network BW utilization of
single All-Reduce by 1.88x (2.92x max), and improve the end-to-end training
iteration performance of real workloads such as ResNet-50, GNMT, DLRM, and
Transformer- 1T by 1.49x (1.96x max), 1.41x (1.81x max), 1.42x (1.80x max), and
1.35x (1.78x max), respectively.
- Abstract(参考訳): 現代のDeep Neural Networks(DNN)モデルのサイズとトレーニングデータの継続的な成長は、トレーニングタスクに数日から数ヶ月を要した。
分散トレーニングは、タスクを複数のNPU(GPU/TPUなど)に分割することで、トレーニング時間を短縮するソリューションである。
しかし、分散トレーニングは、並列化戦略に応じて勾配と/またはアクティベーションを同期させるために、NPU間の通信オーバーヘッドを追加する。
今日のデータセンターでは、大規模なトレーニングのために、NPUは異なる帯域幅とレイテンシを持つ多次元相互接続リンクを介して接続される。
したがって、このようなハイブリッドネットワーク環境では、すべてのネットワーク次元を忙しくし、ネットワークbwを最大化することが難しい課題である。
Themisは,全次元にわたる通信負荷のバランスをとるために,グループ(チャンクに分割)を動的にスケジュールし,ネットワークBW利用を改善する新しい集合スケジューリング手法を提案する。
Themis はネットワーク BW の利用率を平均 1.88x (2.92xmax) で改善し,ResNet-50, GNMT, DLRM, Transformer-1T などの実ワークロードのエンドツーエンドトレーニング繰り返し性能を 1.49x (1.96xmax), 1.41x (1.81xmax), 1.42x (1.80xmax), 1.35x (1.78xmax) で向上できることを示した。
関連論文リスト
- BLoad: Enhancing Neural Network Training with Efficient Sequential Data
Handling [9.678750156701282]
オーバヘッドを最小限に抑えながら、異なるサイズのシーケンスに対して効率的な分散データ並列トレーニングを可能にする新しいトレーニング手法を提案する。
このスキームを使用することで、単一のフレームを削除することなく、パディング量を100ドル以上削減することができ、結果として、トレーニング時間とリコールの両方で全体的なパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2023-10-16T23:14:56Z) - DeAR: Accelerating Distributed Deep Learning with Fine-Grained
All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。
本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。
DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2023-02-24T04:11:18Z) - On Optimizing the Communication of Model Parallelism [79.33873698640662]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - Federated Dynamic Sparse Training: Computing Less, Communicating Less,
Yet Learning Better [88.28293442298015]
Federated Learning (FL)は、クラウドからリソース制限されたエッジデバイスへの機械学習ワークロードの分散を可能にする。
我々は、FedDST(Federated Dynamic Sparse Training)と呼ばれる新しいFLフレームワークを開発し、実装し、実験的に検証する。
FedDSTは、ターゲットのフルネットワークからスパースサブネットワークを抽出し、訓練する動的プロセスである。
論文 参考訳(メタデータ) (2021-12-18T02:26:38Z) - Exploring Multi-dimensional Hierarchical Network Topologies for
Efficient Distributed Training of Trillion Parameter DL Models [2.695466667982714]
高性能分散トレーニングプラットフォームは、ネットワークのさまざまなレベルを通じてアクセラレータを相互接続する多次元階層ネットワークを活用する必要がある。
本稿では、トレーニングプラットフォームにおいて、より中間的なネットワーク次元を追加することが、高価なNICリソースの過剰使用を効果的に軽減する上で有益であるという事実を動機づける。
論文 参考訳(メタデータ) (2021-09-24T06:22:28Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Is Network the Bottleneck of Distributed Training? [36.925680383195356]
分散トレーニングのネットワーク性能を計測・解析するために,第1原理のアプローチを採用する。
ネットワークは低利用率で動作しており、ネットワークを十分に活用できれば、分散トレーニングは1に近いスケーリング係数を達成することができる。
論文 参考訳(メタデータ) (2020-06-17T19:00:31Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。