Fugu-MT 論文翻訳(概要): Effective Elastic Scaling of Deep Learning Workloads

論文の概要: Effective Elastic Scaling of Deep Learning Workloads

arxiv url: http://arxiv.org/abs/2006.13878v1
Date: Wed, 24 Jun 2020 17:01:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 13:25:14.810759
Title: Effective Elastic Scaling of Deep Learning Workloads
Title（参考訳）: ディープラーニングワークロードの効率的なエラスティックスケーリング
Authors: Vaibhav Saxena, K. R. Jayaram, Saurav Basu, Yogish Sabharwal and Ashish Verma
Abstract要約: 大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討する。本稿では,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。これにより,ジョブ実行時間の性能が向上し,クラスタ利用が向上する。
参考スコア（独自算出の注目度）: 3.345876096131764
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increased use of deep learning (DL) in academia, government and industry has, in turn, led to the popularity of on-premise and cloud-hosted deep learning platforms, whose goals are to enable organizations utilize expensive resources effectively, and to share said resources among multiple teams in a fair and effective manner. In this paper, we examine the elastic scaling of Deep Learning (DL) jobs over large-scale training platforms and propose a novel resource allocation strategy for DL training jobs, resulting in improved job run time performance as well as increased cluster utilization. We begin by analyzing DL workloads and exploit the fact that DL jobs can be run with a range of batch sizes without affecting their final accuracy. We formulate an optimization problem that explores a dynamic batch size allocation to individual DL jobs based on their scaling efficiency, when running on multiple nodes. We design a fast dynamic programming based optimizer to solve this problem in real-time to determine jobs that can be scaled up/down, and use this optimizer in an autoscaler to dynamically change the allocated resources and batch sizes of individual DL jobs. We demonstrate empirically that our elastic scaling algorithm can complete up to $\approx 2 \times$ as many jobs as compared to a strong baseline algorithm that also scales the number of GPUs but does not change the batch size. We also demonstrate that the average completion time with our algorithm is up to $\approx 10 \times$ faster than that of the baseline.
Abstract（参考訳）: 学術、政府、産業におけるディープラーニング(DL)の利用の増加により、オンプレミスおよびクラウドでホストされるディープラーニングプラットフォームの人気が高まり、その目標は、企業が高価なリソースを効果的に活用し、そのリソースを公平かつ効果的な方法で複数のチーム間で共有することにある。本稿では,大規模学習プラットフォーム上でのDeep Learning(DL)ジョブの弾性スケーリングについて検討し,DLトレーニングジョブのための新たなリソース割り当て戦略を提案する。まず、DLワークロードを分析し、DLジョブが最終的な精度に影響を与えることなく、さまざまなバッチサイズで実行可能であるという事実を活用する。複数のノード上で実行される場合のスケーリング効率に基づいて、動的バッチサイズを個々のDLジョブに割り当てる最適化問題を定式化する。高速な動的プログラミングに基づくオプティマイザを設計し、スケールアップ/ダウン可能なジョブをリアルタイムで決定し、このオプティマイザをオートスケーラに使用して、割り当てられたリソースと個々のDLジョブのバッチサイズを動的に変更する。当社のエラスティックスケーリングアルゴリズムは、gpuの数をスケールするがバッチサイズは変更しない強力なベースラインアルゴリズムと比較して、最大で約2 \times$のジョブを完了できることを実証的に示しています。また,本アルゴリズムの平均完了時間は,ベースラインよりも最大で約10 \times$であることを示した。

関連論文リスト

Resource Heterogeneity-Aware and Utilization-Enhanced Scheduling for Deep Learning Clusters [26.874684454125152]
em Hadarはリソース利用を促進する最適化フレームワークに基づくタスクレベルのスケジューラである。 em HadarEはDLモデルのトレーニングにおいてかなりのスピードアップを示しており、AmazonのAWS(あるいは当社のラボ)クラスタ上での合計期間を50%(または80%)短縮しています。
論文参考訳（メタデータ） (2025-03-13T22:13:20Z)
ATA: Adaptive Task Allocation for Efficient Resource Management in Distributed Machine Learning [54.08906841213777]
非同期手法は分散機械学習における計算の並列化の基礎となる。本稿では,不均一かつランダムな計算時間分布に適応するATA(Adaptive Task Allocation)を提案する。 ATAは最適なタスク割り当てを識別し、計算時間に関する事前の知識を持つメソッドと互換性があることを示す。
論文参考訳（メタデータ） (2025-02-02T12:22:26Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
Slapo: A Schedule Language for Progressive Optimization of Large Deep Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。 SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文参考訳（メタデータ） (2023-02-16T00:34:53Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
Learning to Optimize Permutation Flow Shop Scheduling via Graph-based Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文参考訳（メタデータ） (2022-10-31T09:46:26Z)
Singularity: Planet-Scale, Preemptible, Elastic Scheduling of AI Workloads [12.117736592836506]
私たちは、ディープラーニングトレーニングと推論ワークロードのためのMicrosoftのグローバル分散スケジューリングサービスであるSingularityを紹介します。 Singularityの中心は、透過的にプリエンプションし、弾力的にディープラーニングワークロードをスケール可能な、新しいワークロード対応スケジューラである。 Singularityによる結果の効率性と信頼性の向上は、定常状態の性能に無視できない影響で達成されることを示す。
論文参考訳（メタデータ） (2022-02-16T04:02:10Z)
Doing More by Doing Less: How Structured Partial Backpropagation Improves Deep Learning Clusters [9.17259958324486]
ディープラーニングモデルのトレーニングは、リソース集約的で、重要な計算、メモリ、ネットワークリソースを消費する。本研究では,分散トレーニングにおける個々の作業者のバックプロパゲーション量を制御する手法である構造化部分バックプロパゲーション(SPB)を提案する。 JigSawは,大規模クラスタの効率を最大28%向上できることがわかった。
論文参考訳（メタデータ） (2021-11-20T20:34:26Z)
Online Evolutionary Batch Size Orchestration for Scheduling Deep Learning Workloads in GPU Clusters [10.395955671683245]
弾力性のあるバッチサイズオーケストレーションのためのオンラインスケジューリングシステムであるONESを提案する。 ONESは、トレーニングバッチサイズに基づいて、各ジョブの弾力性を自動的に管理する。我々は、ONESが従来のディープラーニングスケジューラよりもはるかに短い平均ジョブ完了時間で優れていることを示す。
論文参考訳（メタデータ） (2021-08-08T14:20:05Z)
BFTrainer: Low-Cost Training of Neural Networks on Unfillable Supercomputer Nodes [0.8201100713224002]
FCFSベースのスケジューリングポリシーは、多くの一時的なアイドルノードをもたらす。我々は、これらの無駄なリソース、すなわちディープニューラルネットワーク(DNN)トレーニングに対して、新しい用途を実現する方法を示す。
論文参考訳（メタデータ） (2021-06-22T22:53:19Z)
Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。 Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文参考訳（メタデータ） (2020-08-27T16:56:48Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。