論文の概要: Aryl: An Elastic Cluster Scheduler for Deep Learning
- arxiv url: http://arxiv.org/abs/2202.07896v1
- Date: Wed, 16 Feb 2022 07:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 16:25:09.341959
- Title: Aryl: An Elastic Cluster Scheduler for Deep Learning
- Title(参考訳): Aryl: ディープラーニングのためのElastic Cluster Scheduler
- Authors: Jiamin Li, Hong Xu, Yibo Zhu, Zherui Liu, Chuanxiong Guo, Cong Wang
- Abstract要約: トレーニングと推論の両方の問題に対処する新しいクラスタスケジューラであるArylを紹介します。
Arylは、ジョブのトレーニングのために、アイドル推論サーバにキャパシティローンを導入している。
キャパシティローンやエラスティックスケーリングなしで、クラスタスケジューラ上で最大26.9%のクラスタ使用率向上を実現している。
- 参考スコア(独自算出の注目度): 12.942546041713596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Companies build separate training and inference GPU clusters for deep
learning, and use separate schedulers to manage them. This leads to problems
for both training and inference: inference clusters have low GPU utilization
when the traffic load is low; training jobs often experience long queueing time
due to lack of resources. We introduce Aryl, a new cluster scheduler to address
these problems. Aryl introduces capacity loaning to loan idle inference GPU
servers for training jobs. It further exploits elastic scaling that scales a
training job's GPU allocation to better utilize loaned resources. Capacity
loaning and elastic scaling create new challenges to cluster management. When
the loaned servers need to be returned, we need to minimize the number of job
preemptions; when more GPUs become available, we need to allocate them to
elastic jobs and minimize the job completion time (JCT). Aryl addresses these
combinatorial problems using principled heuristics. It introduces the notion of
server preemption cost which it greedily reduces during server reclaiming. It
further relies on the JCT reduction value defined for each additional worker
for an elastic job to solve the scheduling problem as a multiple-choice
knapsack problem. Prototype implementation on a 64-GPU testbed and large-scale
simulation with 15-day traces of over 50,000 production jobs show that Aryl
brings 1.53x and 1.50x reductions in average queuing time and JCT, and improves
cluster usage by up to 26.9% over the cluster scheduler without capacity
loaning or elastic scaling.
- Abstract(参考訳): 企業はディープラーニングのために別々のトレーニングと推論GPUクラスタを構築し、それらを管理するために別々のスケジューラを使用する。
推論クラスタは、トラフィックの負荷が低い場合にGPU使用率が低く、トレーニングジョブはリソース不足のために長時間のキューングを経験することが多い。
これらの問題に対処する新しいクラスタスケジューラであるArylを紹介します。
arylはトレーニングジョブ用のアイドル推論gpuサーバにキャパシティローンを導入する。
さらに、トレーニングジョブのgpu割り当てをスケールして、融資されたリソースをより活用するelastic scalingを活用する。
キャパシティローンとエラスティックスケーリングは、クラスタ管理に新たな課題を生み出す。
ローンされたサーバを返さなければならない場合には、ジョブプリエンプションの数を最小化する必要があります。GPUが増えれば、エラスティックなジョブに割り当てて、ジョブ完了時間(JCT)を最小化する必要があります。
アリルはこれらの組合せ問題に原理的ヒューリスティックスを用いて対処する。
サーバのプリエンプションコストの概念を導入して,サーバのリエンプション時にゆるやかに削減する。
さらに、複数の選択knapsack問題としてスケジューリング問題を解くために、各追加作業者ごとに定義されたJCT削減値に依存する。
64-gpuテストベッドのプロトタイプ実装と5万以上のプロダクションジョブの15日間トレースを備えた大規模シミュレーションでは、arylが平均キュー時間とjctで1.53倍と1.50倍の削減を実現し、クラスタスケジューラ上で最大26.9%のクラスタ使用率向上を実現している。
関連論文リスト
- FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - A Simulation Platform for Multi-tenant Machine Learning Services on
Thousands of GPUs [38.92672037891692]
AnalySIMは、マルチテナント機械学習サービスの効率的な設計探索を可能にするクラスタシミュレータである。
GPUリソースの利用など、さまざまなパフォーマンスメトリクスで、さまざまなスケジューリングポリシをテストし、分析することが可能になる。
プリエンプションとマイグレーションによって、平均的な仕事の完了時間が大幅に短縮できることがわかった。
論文 参考訳(メタデータ) (2022-01-10T06:00:11Z) - Efficient Strong Scaling Through Burst Parallel Training [13.656104138147967]
大規模なGPUクラスタを使用して、ディープニューラルネットワーク(DNN)モデルをトレーニングすることが、必須の要件になっています。
この効率問題に対処するシステムDeepPoolを2つの重要なアイデアで紹介する。
論文 参考訳(メタデータ) (2021-12-19T05:18:39Z) - Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters [10.38396444951436]
深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。
共有GPUクラスタのためのリソースセンシティブなスケジューラであるSynergyを提案する。
実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-12T15:25:54Z) - Online Evolutionary Batch Size Orchestration for Scheduling Deep
Learning Workloads in GPU Clusters [10.395955671683245]
弾力性のあるバッチサイズオーケストレーションのためのオンラインスケジューリングシステムであるONESを提案する。
ONESは、トレーニングバッチサイズに基づいて、各ジョブの弾力性を自動的に管理する。
我々は、ONESが従来のディープラーニングスケジューラよりもはるかに短い平均ジョブ完了時間で優れていることを示す。
論文 参考訳(メタデータ) (2021-08-08T14:20:05Z) - Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep
Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。
Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文 参考訳(メタデータ) (2020-08-27T16:56:48Z) - Straggler-aware Distributed Learning: Communication Computation Latency
Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。
既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。
このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文 参考訳(メタデータ) (2020-04-10T08:39:36Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - Communication Contention Aware Scheduling of Multiple Deep Learning
Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。
次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。
LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文 参考訳(メタデータ) (2020-02-24T07:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。