Fugu-MT 論文翻訳(概要): Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters

論文の概要: Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters

arxiv url: http://arxiv.org/abs/2501.05563v1
Date: Thu, 09 Jan 2025 20:19:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-13 18:34:15.072071
Title: Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters
Title（参考訳）: GPUクラスタにおける予測支援オンライン分散ディープラーニングワークロードスケジューリング
Authors: Ziyue Luo, Jia Liu, Myungjin Lee, Ness B. Shroff,
Abstract要約: 本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。 A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
参考スコア（独自算出の注目度）: 24.845122459974466
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent explosive growth of deep learning (DL) models has necessitated a compelling need for efficient job scheduling for distributed deep learning training with mixed parallelisms (DDLwMP) in GPU clusters. This paper proposes an adaptive shortest-remaining-processing-time-first (A-SRPT) scheduling algorithm, a novel prediction-assisted online scheduling approach designed to mitigate the challenges associated with DL cluster scheduling. By modeling each job as a graph corresponding to heterogeneous Deep Neural Network (DNN) models and their associated distributed training configurations, A-SRPT strategically assigns jobs to the available GPUs, thereby minimizing inter-server communication overhead. Observing that most DDLwMP jobs recur, A-SRPT incorporates a random forest regression model to predict training iterations. Crucially, A-SRPT maps the complex scheduling problem into a single-machine instance, which is addressed optimally by a preemptive "shortest-remaining-processing-time-first" strategy. This optimized solution serves as a guide for actual job scheduling within the GPU clusters, leading to a theoretically provable competitive scheduling efficiency. We conduct extensive real-world testbed and simulation experiments to verify our proposed algorithms.
Abstract（参考訳）: 最近の深層学習(DL)モデルの爆発的成長は、GPUクラスタ内での混合並列性(DDLwMP)を用いた分散深層学習トレーニングにおいて、効率的なジョブスケジューリングを必要とする。本稿では,DLクラスタスケジューリングに関わる課題を軽減するために,適応的最短処理時間優先(A-SRPT)スケジューリングアルゴリズムを提案する。ヘテロジニアスディープニューラルネットワーク(DNN)モデルとその関連する分散トレーニング構成に対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当て、サーバ間通信オーバーヘッドを最小限にする。ほとんどのDDLwMPジョブが再帰するのを見て、A-SRPTはトレーニングイテレーションを予測するためにランダムな森林回帰モデルを組み込んでいる。重要なことに、A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-first" 戦略によって最適に対処する。この最適化されたソリューションは、GPUクラスタ内の実際のジョブスケジューリングのガイドとして機能し、理論的に証明可能な競合スケジューリング効率をもたらす。提案アルゴリズムの検証のために,実世界のテストベッドとシミュレーション実験を行った。

関連論文リスト

Enhancing Cluster Scheduling in HPC: A Continuous Transfer Learning for Real-Time Optimization [0.42970700836450487]
本研究では,ノード親和性制約に着目し,クラスタシステムのタスクスケジューリングを最適化するための機械学習支援手法を提案する。提案した連続移動学習モデルは、運用中に動的に進化し、再学習の必要性を最小限に抑える。 Google Cluster Dataに基づいて評価されたこのモデルは、99%以上の精度を実現し、計算オーバーヘッドを低減し、制約されたタスクのスケジューリング遅延を改善する。
論文参考訳（メタデータ） (2025-09-22T12:27:20Z)
Decentralized Distributed Proximal Policy Optimization (DD-PPO) for High Performance Computing Scheduling on Multi-User Systems [45.62643537023675]
本研究では,分散型分散プロキシポリシー最適化(DD-PPO)アルゴリズムを用いた新しいRLベースのスケジューラを提案する。 DD-PPOアルゴリズムは、各ステップでパラメータ同期を必要とせずに、複数のワーカーにまたがる大規模な分散トレーニングをサポートする。検証データセットは、1150万以上の実際のHPCジョブトレースを利用して、DD-PPOのパフォーマンスを従来のスケジューリング手法と高度なスケジューリング手法と比較した。
論文参考訳（メタデータ） (2025-05-06T19:50:37Z)
GPU Cluster Scheduling for Network-Sensitive Deep Learning [19.344426053952464]
本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
論文参考訳（メタデータ） (2024-01-29T19:06:08Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。 RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文参考訳（メタデータ） (2023-04-10T17:22:12Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
A Memetic Algorithm with Reinforcement Learning for Sociotechnical Production Scheduling [0.0]
本稿では、フレキシブルジョブショップスケジューリング問題(DRC-FJSSP)に深層強化学習(DRL)を適用したメメティックアルゴリズムを提案する。産業における研究プロジェクトから、フレキシブルマシン、フレキシブルなヒューマンワーカー、作業能力、セットアップと処理操作、材料到着時間、材料製造の請求書の並列タスク、シーケンス依存のセットアップ時間、人間と機械のコラボレーションにおける(一部)自動化タスクを検討する必要性を認識します。
論文参考訳（メタデータ） (2022-12-21T11:24:32Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Receptive Field-based Segmentation for Distributed CNN Inference Acceleration in Collaborative Edge Computing [93.67044879636093]
協調エッジコンピューティングネットワークにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。我々は,CNNモデルを複数の畳み込み層に分割するために,融合層並列化を用いた新しい協調エッジコンピューティングを提案する。
論文参考訳（メタデータ） (2022-07-22T18:38:11Z)
Decentralized Training of Foundation Models in Heterogeneous Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文参考訳（メタデータ） (2022-06-02T20:19:51Z)
DistIR: An Intermediate Representation and Simulator for Efficient Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文参考訳（メタデータ） (2021-11-09T21:32:51Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。