論文の概要: Online Evolutionary Batch Size Orchestration for Scheduling Deep
Learning Workloads in GPU Clusters
- arxiv url: http://arxiv.org/abs/2108.03645v1
- Date: Sun, 8 Aug 2021 14:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:41:44.741449
- Title: Online Evolutionary Batch Size Orchestration for Scheduling Deep
Learning Workloads in GPU Clusters
- Title(参考訳): GPUクラスタにおけるディープラーニングワークロードスケジューリングのためのオンライン進化的バッチサイズオーケストレーション
- Authors: Zhengda Bian and Shenggui Li and Wei Wang and Yang You
- Abstract要約: 弾力性のあるバッチサイズオーケストレーションのためのオンラインスケジューリングシステムであるONESを提案する。
ONESは、トレーニングバッチサイズに基づいて、各ジョブの弾力性を自動的に管理する。
我々は、ONESが従来のディープラーニングスケジューラよりもはるかに短い平均ジョブ完了時間で優れていることを示す。
- 参考スコア(独自算出の注目度): 10.395955671683245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient GPU resource scheduling is essential to maximize resource
utilization and save training costs for the increasing amount of deep learning
workloads in shared GPU clusters. Existing GPU schedulers largely rely on
static policies to leverage the performance characteristics of deep learning
jobs. However, they can hardly reach optimal efficiency due to the lack of
elasticity. To address the problem, we propose ONES, an ONline Evolutionary
Scheduler for elastic batch size orchestration. ONES automatically manages the
elasticity of each job based on the training batch size, so as to maximize GPU
utilization and improve scheduling efficiency. It determines the batch size for
each job through an online evolutionary search that can continuously optimize
the scheduling decisions. We evaluate the effectiveness of ONES with 64 GPUs on
TACC's Longhorn supercomputers. The results show that ONES can outperform the
prior deep learning schedulers with a significantly shorter average job
completion time.
- Abstract(参考訳): 効率的なGPUリソーススケジューリングは、リソース利用の最大化と、共有GPUクラスタにおけるディープラーニングワークロードの増加に対するトレーニングコストの削減に不可欠である。
既存のGPUスケジューラは、ディープラーニングジョブのパフォーマンス特性を活用するための静的ポリシーに大きく依存している。
しかし、弾性の欠如により最適な効率に達することはほとんどない。
この問題に対処するために,弾力的なバッチサイズオーケストレーションのためのオンライン進化スケジューラであるoneを提案する。
バッチサイズをトレーニングすることで、各ジョブの弾力性を自動的に管理し、gpuの利用を最大化し、スケジューリング効率を向上させる。
スケジューリング決定を継続的に最適化するオンライン進化探索を通じて、各ジョブのバッチサイズを決定する。
TACCのLonghornスーパーコンピュータにおける64GPUを用いたONESの有効性を評価する。
その結果、ONESは従来のディープラーニングスケジューラよりもはるかに短い平均ジョブ完了時間で性能を向上できることがわかった。
関連論文リスト
- FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral
Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。
RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。
我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文 参考訳(メタデータ) (2023-04-10T17:22:12Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - HARL: Hierarchical Adaptive Reinforcement Learning Based Auto Scheduler
for Neural Networks [51.71682428015139]
効率的なテンソルプログラム探索のための強化学習に基づく自動スケジューリングシステムであるHARLを提案する。
HarLは、最先端のオートスケジューラと比較して、テンソル演算子の性能を22%改善し、探索速度を4.3倍改善する。
また、エンドツーエンドのニューラルネットワークでは、推論性能と探索速度も大幅に向上する。
論文 参考訳(メタデータ) (2022-11-21T04:15:27Z) - Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch
Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。
そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文 参考訳(メタデータ) (2022-11-20T21:48:25Z) - Efficient Strong Scaling Through Burst Parallel Training [13.656104138147967]
大規模なGPUクラスタを使用して、ディープニューラルネットワーク(DNN)モデルをトレーニングすることが、必須の要件になっています。
この効率問題に対処するシステムDeepPoolを2つの重要なアイデアで紹介する。
論文 参考訳(メタデータ) (2021-12-19T05:18:39Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Scheduling Optimization Techniques for Neural Network Training [3.1617796705744547]
本稿では,ニューラルネットワークトレーニングに有効なスケジューリング手法であるアウト・オブ・オーダー(oo)バックプロップを提案する。
単一GPU、データ並列、パイプライン並列トレーニングにおけるGPU利用は、ooobackpropを適用することで、一般的に改善できることを示す。
論文 参考訳(メタデータ) (2021-10-03T05:45:06Z) - Effective Elastic Scaling of Deep Learning Workloads [3.345876096131764]
大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討する。
本稿では,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。これにより,ジョブ実行時間の性能が向上し,クラスタ利用が向上する。
論文 参考訳(メタデータ) (2020-06-24T17:01:09Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - Communication Contention Aware Scheduling of Multiple Deep Learning
Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。
次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。
LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文 参考訳(メタデータ) (2020-02-24T07:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。