論文の概要: Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters
- arxiv url: http://arxiv.org/abs/2503.10918v1
- Date: Thu, 13 Mar 2025 22:13:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:20.922184
- Title: Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters
- Title(参考訳): 深層学習クラスタのための資源不均一性と利用性向上型スケジューリング
- Authors: Abeda Sultana, Nabin Pakka, Fei Xu, Xu Yuan, Li Chen, Nian-Feng Tzeng,
- Abstract要約: em Hadarはリソース利用を促進する最適化フレームワークに基づくタスクレベルのスケジューラである。
em HadarEはDLモデルのトレーニングにおいてかなりのスピードアップを示しており、AmazonのAWS(あるいは当社のラボ)クラスタ上での合計期間を50%(または80%)短縮しています。
- 参考スコア(独自算出の注目度): 26.874684454125152
- License:
- Abstract: Scheduling deep learning (DL) models to train on powerful clusters with accelerators like GPUs and TPUs, presently falls short, either lacking fine-grained heterogeneity awareness or leaving resources substantially under-utilized. To fill this gap, we propose a novel design of a task-level heterogeneity-aware scheduler, {\em Hadar}, based on an optimization framework that can boost resource utilization. {\em Hadar} leverages the performance traits of DL jobs on a heterogeneous DL cluster, characterizes the task-level performance heterogeneity in the optimization problem, and makes scheduling decisions across both spatial and temporal dimensions. %with the objective to reduce the average job completion time of DL jobs. It involves the primal-dual framework employing a dual subroutine, to solve the optimization problem and guide the scheduling design. Our trace-driven simulation with representative DL model training workloads demonstrates that {\em Hadar} accelerates the total time duration by 1.20$\times$ when compared with its state-of-the-art heterogeneity-aware counterpart, Gavel. Further, our {\em Hadar} scheduler is enhanced to {\em HadarE} by forking each job into multiple copies to let a job train concurrently on heterogeneous GPUs resided on separate available nodes (i.e., machines or servers) for resource utilization enhancement. {\em HadarE} is evaluated extensively on physical DL clusters for comparison with {\em Hadar} and Gavel. With substantial enhancement in cluster resource utilization (by 1.45$\times$), {\em HadarE} exhibits considerable speed-ups in DL model training, reducing the total time duration by 50\% (or 80\%) on an Amazon's AWS (or our lab) cluster, while producing trained DL models with consistently better inference quality than those trained by \textit{Hadar}.
- Abstract(参考訳): ディープラーニング(DL)モデルをスケジューリングして、GPUやTPUなどのアクセラレータで強力なクラスタ上でトレーニングすることは、現時点では不足している。
このギャップを埋めるために,資源利用を向上する最適化フレームワークに基づくタスクレベル不均一性を考慮したスケジューラ {\em Hadar} を提案する。
{\em Hadar} は不均一なDLクラスタ上でのDLジョブの性能特性を活用し、最適化問題におけるタスクレベルのパフォーマンスの不均一性を特徴付け、空間次元と時間次元の両方にわたるスケジューリング決定を行う。
%であり,DLジョブの平均作業完了時間を短縮することが目的であった。
最適化問題を解き、スケジューリング設計を導くために、双対のサブルーチンを用いた原始双対フレームワークが関係している。
代表的なDLモデルトレーニングワークロードを用いたトレース駆動シミュレーションでは,最先端の異種性を考慮したGavelと比較して,合計時間期間を1.20$\times$に短縮することを示した。
さらに、各ジョブを複数のコピーにフォークして、リソース利用の強化のために、異なる利用可能なノード(マシンやサーバ)にジョブトレインを同時に駐在させることで、私たち {\em Hadar}スケジューラを {\em HadarE} に拡張します。
{\em HadarE} は物理DLクラスタ上で広く評価され、 {\em Hadar} や Gavel と比較される。
クラスタリソース利用の大幅な向上 (1.45$\times$) により、 {\em HadarE} は、DLモデルのトレーニングにおいてかなりのスピードアップを示し、AmazonのAWS(あるいは当社のラボ)クラスタ上での合計時間の50\%(または80\%)を削減しつつ、トレーニングされたDLモデルの推論品質が \textit{Hadar} によってトレーニングされたものよりも一貫して向上している。
関連論文リスト
- Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。
ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。
A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文 参考訳(メタデータ) (2025-01-09T20:19:01Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Taming Resource Heterogeneity In Distributed ML Training With Dynamic
Batching [1.047192732651018]
分散モデルトレーニングの現在の技術は、クラスタが一定のリソース可用性を持つサーバで構成されていることを主に前提としている。
本研究では、分散データ並列学習のための動的手法を開発し、各作業者のミニバッチサイズを可用性とスループットに基づいて調整する。
論文 参考訳(メタデータ) (2023-05-20T15:33:06Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - Horizontally Fused Training Array: An Effective Hardware Utilization
Squeezer for Training Novel Deep Learning Models [8.055533378391814]
単一加速器のトレーニングジョブが繰り返し起動した場合,クラスタ全体のリソース消費を支配していることを示す。
本稿では,DL研究者や実践者が新たなDLトレーニングワークロードのハードウェア利用を効果的かつ容易に向上するために,水平混合訓練アレイ(HFTA)を提案する。
HFTAは、ハードウェア使用量の削減に強い効果を示し、個別のアクセラレータ上で各ジョブを実行する標準的なプラクティスと比較して、最大15.1倍のトレーニングスループットを実現している。
論文 参考訳(メタデータ) (2021-02-03T23:56:55Z) - Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep
Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。
Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文 参考訳(メタデータ) (2020-08-27T16:56:48Z) - Effective Elastic Scaling of Deep Learning Workloads [3.345876096131764]
大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討する。
本稿では,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。これにより,ジョブ実行時間の性能が向上し,クラスタ利用が向上する。
論文 参考訳(メタデータ) (2020-06-24T17:01:09Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。