Fugu-MT 論文翻訳(概要): Themis: A Network Bandwidth-Aware Collective Scheduling Policy for Distributed Training of DL Models

論文の概要: Themis: A Network Bandwidth-Aware Collective Scheduling Policy for Distributed Training of DL Models

arxiv url: http://arxiv.org/abs/2110.04478v1
Date: Sat, 9 Oct 2021 06:50:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-12 20:59:19.827025
Title: Themis: A Network Bandwidth-Aware Collective Scheduling Policy for Distributed Training of DL Models
Title（参考訳）: Themis: DLモデルの分散トレーニングのためのネットワーク帯域対応集合スケジューリングポリシー
Authors: Saeed Rashidi, William Won, Sudarshan Srinivasan, Srinivas Sridharan, Tushar Krishna
Abstract要約: 分散トレーニングは、タスクを複数のNPUに分割することで、トレーニング時間を短縮するソリューションである。 Themisは、すべての次元にわたる通信負荷のバランスをとるために、グループを動的にスケジュールする新しい集合スケジューリングスキームである。 Themisは平均して1.88x(2.92xmax)で1つのAll-ReduceのネットワークBW利用を改善することができる。
参考スコア（独自算出の注目度）: 2.6599014990168834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The continuous growth in both size and training data for modern Deep Neural Networks (DNNs) models has led to training tasks taking days or even months. Distributed training is a solution to reduce training time by splitting the task across multiple NPUs (e.g., GPU/TPU). However, distributed training adds communication overhead between the NPUs in order to synchronize the gradients and/or activation, depending on the parallelization strategy. In today's datacenters, for training at scale, NPUs are connected through multi-dimensional interconnection links with different bandwidth and latency. Hence, keeping all network dimensions busy and maximizing the network BW is a challenging task in such a hybrid network environment, as this work identifies. We propose Themis, a novel collective scheduling scheme that dynamically schedules collectives (divided into chunks) to balance the communication loads across all dimensions, further improving the network BW utilization. Our results show that on average, Themis can improve the network BW utilization of single All-Reduce by 1.88x (2.92x max), and improve the end-to-end training iteration performance of real workloads such as ResNet-50, GNMT, DLRM, and Transformer- 1T by 1.49x (1.96x max), 1.41x (1.81x max), 1.42x (1.80x max), and 1.35x (1.78x max), respectively.
Abstract（参考訳）: 現代のDeep Neural Networks(DNN)モデルのサイズとトレーニングデータの継続的な成長は、トレーニングタスクに数日から数ヶ月を要した。分散トレーニングは、タスクを複数のNPU(GPU/TPUなど)に分割することで、トレーニング時間を短縮するソリューションである。しかし、分散トレーニングは、並列化戦略に応じて勾配と/またはアクティベーションを同期させるために、NPU間の通信オーバーヘッドを追加する。今日のデータセンターでは、大規模なトレーニングのために、NPUは異なる帯域幅とレイテンシを持つ多次元相互接続リンクを介して接続される。したがって、このようなハイブリッドネットワーク環境では、すべてのネットワーク次元を忙しくし、ネットワークbwを最大化することが難しい課題である。 Themisは,全次元にわたる通信負荷のバランスをとるために,グループ(チャンクに分割)を動的にスケジュールし,ネットワークBW利用を改善する新しい集合スケジューリング手法を提案する。 Themis はネットワーク BW の利用率を平均 1.88x (2.92xmax) で改善し,ResNet-50, GNMT, DLRM, Transformer-1T などの実ワークロードのエンドツーエンドトレーニング繰り返し性能を 1.49x (1.96xmax), 1.41x (1.81xmax), 1.42x (1.80xmax), 1.35x (1.78xmax) で向上できることを示した。

関連論文リスト

DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster [7.597885871452736]
そこで我々は,低コミュニケーションの大規模分散クラスタトレーニングフレームワークであるDiLoCoXを提案する。パイプライン並列性と、通信とローカルトレーニングのデュアルステップ遅延オーバーラップと、適応的なグラディエント圧縮スキームを組み合わせる。本研究では,DiLoCoXがモデル収束の無視可能な劣化を維持しつつ,分散トレーニングにおいて357倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2025-06-26T13:45:04Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
FRED: Flexible REduction-Distribution Interconnect and Communication Implementation for Wafer-Scale Distributed Training of DNN Models [7.605379124802678]
分散ディープニューラルネットワーク(DNN)トレーニングは、トレーニングタスクを複数のアクセラレータに分散することで、トレーニングオーバーヘッドを低減するテクニックである。我々は,ウエハスケールネットワークの高BW要求に適したウェハスケール相互接続であるFREDを提案する。その結果、FREDはResNet-152, Transformer-17B, GPT-3, Transformer-1Tの平均エンドツーエンドトレーニング時間を1.76X, 1.87X, 1.34X, 1.4Xで改善できることがわかった。
論文参考訳（メタデータ） (2024-06-28T00:05:53Z)
Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-03-21T02:33:37Z)
BLoad: Enhancing Neural Network Training with Efficient Sequential Data Handling [8.859850475075238]
オーバヘッドを最小限に抑えながら、異なるサイズのシーケンスに対して効率的な分散データ並列トレーニングを可能にする新しいトレーニング手法を提案する。このスキームを使用することで、単一のフレームを削除することなく、パディング量を100ドル以上削減することができ、結果として、トレーニング時間とリコールの両方で全体的なパフォーマンスが向上しました。
論文参考訳（メタデータ） (2023-10-16T23:14:56Z)
DeAR: Accelerating Distributed Deep Learning with Fine-Grained All-Reduce Pipelining [22.168137965177284]
コミュニケーションスケジューリングは、分散トレーニングの加速に有効であることが示されている。本稿では,全再現プリミティブを2つの連続演算に分解する新しいスケジューリングアルゴリズムであるDeARを提案する。 DeARは最先端ソリューションよりも最大83%,15%のトレーニングスピードアップを実現していることを示す。
論文参考訳（メタデータ） (2023-02-24T04:11:18Z)
Accelerating Neural Network Training with Distributed Asynchronous and Selective Optimization (DASO) [0.0]
分散非同期および選択的最適化(DASO)手法を導入し、ネットワークトレーニングを加速します。 DASOは、ノードローカルおよびグローバルネットワークで構成される階層型および非同期通信スキームを使用する。 DASOは従来のネットワークや最先端ネットワークで最大34%のトレーニング時間を短縮できることを示す。
論文参考訳（メタデータ） (2021-04-12T16:02:20Z)
All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文参考訳（メタデータ） (2021-03-02T03:09:03Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)
Is Network the Bottleneck of Distributed Training? [36.925680383195356]
分散トレーニングのネットワーク性能を計測・解析するために,第1原理のアプローチを採用する。ネットワークは低利用率で動作しており、ネットワークを十分に活用できれば、分散トレーニングは1に近いスケーリング係数を達成することができる。
論文参考訳（メタデータ） (2020-06-17T19:00:31Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。