論文の概要: Communication Contention Aware Scheduling of Multiple Deep Learning
Training Jobs
- arxiv url: http://arxiv.org/abs/2002.10105v1
- Date: Mon, 24 Feb 2020 07:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:48:46.408431
- Title: Communication Contention Aware Scheduling of Multiple Deep Learning
Training Jobs
- Title(参考訳): 複数の深層学習者のコミュニケーション内容を考慮したスケジューリング
- Authors: Qiang Wang, Shaohuai Shi, Canhui Wang, Xiaowen Chu
- Abstract要約: 我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。
次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。
LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
- 参考スコア(独自算出の注目度): 17.45154289084637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed Deep Learning (DDL) has rapidly grown its popularity since it
helps boost the training performance on high-performance GPU clusters.
Efficient job scheduling is indispensable to maximize the overall performance
of the cluster when training multiple jobs simultaneously. However, existing
schedulers do not consider the communication contention of multiple
communication tasks from different distributed training jobs, which could
deteriorate the system performance and prolong the job completion time. In this
paper, we first establish a new DDL job scheduling framework which organizes
DDL jobs as Directed Acyclic Graphs (DAGs) and considers communication
contention between nodes. We then propose an efficient algorithm, LWF-$\kappa$,
to balance the GPU utilization and consolidate the allocated GPUs for each job.
When scheduling those communication tasks, we observe that neither avoiding all
the contention nor blindly accepting them is optimal to minimize the job
completion time. We thus propose a provable algorithm, AdaDUAL, to efficiently
schedule those communication tasks. Based on AdaDUAL, we finally propose
Ada-SRSF for the DDL job scheduling problem. Simulations on a 64-GPU cluster
connected with 10 Gbps Ethernet show that LWF-$\kappa$ achieves up to
$1.59\times$ improvement over the classical first-fit algorithms. More
importantly, Ada-SRSF reduces the average job completion time by $20.1\%$ and
$36.7\%$, as compared to the SRSF(1) scheme (avoiding all the contention) and
the SRSF(2) scheme (blindly accepting all of two-way communication contention)
respectively.
- Abstract(参考訳): 高性能GPUクラスタでのトレーニングパフォーマンス向上を支援するため、分散ディープラーニング(DDL)は急速に人気を高めている。
複数のジョブを同時にトレーニングする場合、クラスタ全体のパフォーマンスを最大化するために、効率的なジョブスケジューリングは不可欠である。
しかし、既存のスケジューラは、異なる分散トレーニングジョブからの複数のコミュニケーションタスクの通信競合を考慮せず、システム性能を悪化させ、ジョブ完了時間を延ばす可能性がある。
本稿では,まずDDLジョブをDAG(Directed Acyclic Graphs)として整理し,ノード間の通信競合を考慮した新しいDDLジョブスケジューリングフレームワークを確立する。
次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$\kappa$ を提案する。
これらのコミュニケーションタスクをスケジューリングする場合、全ての競合を避けたり、盲目的に受け入れたりすることは、仕事の完了時間を最小化するのに最適である。
そこで本研究では,これらの通信タスクを効率的にスケジュールするアルゴリズムであるadadualを提案する。
AdaDUALに基づいて,DDLジョブスケジューリング問題に対するAda-SRSFを提案する。
10Gbpsのイーサネットに接続された64-GPUクラスタのシミュレーションでは、LWF-$\kappa$は古典的なファーストフィットアルゴリズムよりも最大1.59\times$改善されている。
さらに重要なことに、Ada-SRSFは、SRSF(1)スキーム(全ての競合を回避)とSRSF(2)スキーム(すべての双方向通信競合を受け入れる)と比較して、平均的なジョブ完了時間を20.1\%と36.7\%に短縮する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - ACCO: Accumulate while you Communicate, Hiding Communications in Distributed LLM Training [16.560270624096706]
大規模言語モデルの分散学習に適したメモリ効率最適化アルゴリズムを提案する。
本手法は、勾配計算と通信の並列実行に固有の1ステップ遅れを軽減する新しい手法に依存する。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - GPU Cluster Scheduling for Network-Sensitive Deep Learning [19.344426053952464]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。
我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2024-01-29T19:06:08Z) - A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。
ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文 参考訳(メタデータ) (2023-10-22T21:38:57Z) - FAMO: Fast Adaptive Multitask Optimization [48.59232177073481]
本稿では,動的重み付け手法であるFast Adaptive Multitask Optimization FAMOを導入する。
この結果から,FAMOは最先端の勾配操作技術に匹敵する,あるいは優れた性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-06-06T15:39:54Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - DaSGD: Squeezing SGD Parallelization Performance in Distributed Training
Using Delayed Averaging [4.652668321425679]
ミニバッチ勾配降下(SGD)アルゴリズムでは、作業者は前方/後方の伝搬を停止する必要がある。
DaSGDはSGDとフォワード/バックの伝搬を並列化し、通信オーバーヘッドの100%を隠蔽する。
論文 参考訳(メタデータ) (2020-05-31T05:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。