論文の概要: Themis: A Network Bandwidth-Aware Collective Scheduling Policy for
Distributed Training of DL Models
- arxiv url: http://arxiv.org/abs/2110.04478v1
- Date: Sat, 9 Oct 2021 06:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 20:59:19.827025
- Title: Themis: A Network Bandwidth-Aware Collective Scheduling Policy for
Distributed Training of DL Models
- Title(参考訳): Themis: DLモデルの分散トレーニングのためのネットワーク帯域対応集合スケジューリングポリシー
- Authors: Saeed Rashidi, William Won, Sudarshan Srinivasan, Srinivas Sridharan,
Tushar Krishna
- Abstract要約: 分散トレーニングは、タスクを複数のNPUに分割することで、トレーニング時間を短縮するソリューションである。
Themisは、すべての次元にわたる通信負荷のバランスをとるために、グループを動的にスケジュールする新しい集合スケジューリングスキームである。
Themisは平均して1.88x(2.92xmax)で1つのAll-ReduceのネットワークBW利用を改善することができる。
- 参考スコア(独自算出の注目度): 2.6599014990168834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continuous growth in both size and training data for modern Deep Neural
Networks (DNNs) models has led to training tasks taking days or even months.
Distributed training is a solution to reduce training time by splitting the
task across multiple NPUs (e.g., GPU/TPU). However, distributed training adds
communication overhead between the NPUs in order to synchronize the gradients
and/or activation, depending on the parallelization strategy. In today's
datacenters, for training at scale, NPUs are connected through
multi-dimensional interconnection links with different bandwidth and latency.
Hence, keeping all network dimensions busy and maximizing the network BW is a
challenging task in such a hybrid network environment, as this work identifies.
We propose Themis, a novel collective scheduling scheme that dynamically
schedules collectives (divided into chunks) to balance the communication loads
across all dimensions, further improving the network BW utilization. Our
results show that on average, Themis can improve the network BW utilization of
single All-Reduce by 1.88x (2.92x max), and improve the end-to-end training
iteration performance of real workloads such as ResNet-50, GNMT, DLRM, and
Transformer- 1T by 1.49x (1.96x max), 1.41x (1.81x max), 1.42x (1.80x max), and
1.35x (1.78x max), respectively.
- Abstract(参考訳): 現代のDeep Neural Networks(DNN)モデルのサイズとトレーニングデータの継続的な成長は、トレーニングタスクに数日から数ヶ月を要した。
分散トレーニングは、タスクを複数のNPU(GPU/TPUなど)に分割することで、トレーニング時間を短縮するソリューションである。
しかし、分散トレーニングは、並列化戦略に応じて勾配と/またはアクティベーションを同期させるために、NPU間の通信オーバーヘッドを追加する。
今日のデータセンターでは、大規模なトレーニングのために、NPUは異なる帯域幅とレイテンシを持つ多次元相互接続リンクを介して接続される。
したがって、このようなハイブリッドネットワーク環境では、すべてのネットワーク次元を忙しくし、ネットワークbwを最大化することが難しい課題である。
Themisは,全次元にわたる通信負荷のバランスをとるために,グループ(チャンクに分割)を動的にスケジュールし,ネットワークBW利用を改善する新しい集合スケジューリング手法を提案する。
Themis はネットワーク BW の利用率を平均 1.88x (2.92xmax) で改善し,ResNet-50, GNMT, DLRM, Transformer-1T などの実ワークロードのエンドツーエンドトレーニング繰り返し性能を 1.49x (1.96xmax), 1.41x (1.81xmax), 1.42x (1.80xmax), 1.35x (1.78xmax) で向上できることを示した。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FRED: Flexible REduction-Distribution Interconnect and Communication Implementation for Wafer-Scale Distributed Training of DNN Models [7.605379124802678]
分散ディープニューラルネットワーク(DNN)トレーニングは、トレーニングタスクを複数のアクセラレータに分散することで、トレーニングオーバーヘッドを低減するテクニックである。
我々は,ウエハスケールネットワークの高BW要求に適したウェハスケール相互接続であるFREDを提案する。
その結果、FREDはResNet-152, Transformer-17B, GPT-3, Transformer-1Tの平均エンドツーエンドトレーニング時間を1.76X, 1.87X, 1.34X, 1.4Xで改善できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T00:05:53Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - BLoad: Enhancing Neural Network Training with Efficient Sequential Data Handling [8.859850475075238]
オーバヘッドを最小限に抑えながら、異なるサイズのシーケンスに対して効率的な分散データ並列トレーニングを可能にする新しいトレーニング手法を提案する。
このスキームを使用することで、単一のフレームを削除することなく、パディング量を100ドル以上削減することができ、結果として、トレーニング時間とリコールの両方で全体的なパフォーマンスが向上しました。
論文 参考訳(メタデータ) (2023-10-16T23:14:56Z) - DeAR: Accelerating Distributed Deep Learning with Fine-Grained
All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。
本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。
DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2023-02-24T04:11:18Z) - Accelerating Neural Network Training with Distributed Asynchronous and
Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。
DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。
DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2021-04-12T16:02:20Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - Is Network the Bottleneck of Distributed Training? [36.925680383195356]
分散トレーニングのネットワーク性能を計測・解析するために,第1原理のアプローチを採用する。
ネットワークは低利用率で動作しており、ネットワークを十分に活用できれば、分散トレーニングは1に近いスケーリング係数を達成することができる。
論文 参考訳(メタデータ) (2020-06-17T19:00:31Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。