Fugu-MT 論文翻訳(概要): GPU Cluster Scheduling for Network-Sensitive Deep Learning

論文の概要: GPU Cluster Scheduling for Network-Sensitive Deep Learning

arxiv url: http://arxiv.org/abs/2401.16492v1
Date: Mon, 29 Jan 2024 19:06:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 17:31:00.924624
Title: GPU Cluster Scheduling for Network-Sensitive Deep Learning
Title（参考訳）: ネットワーク感性深層学習のためのGPUクラスタスケジューリング
Authors: Aakash Sharma, Vivek M. Bhasi, Sonali Singh, George Kesidis, Mahmut T. Kandemir, Chita R. Das
Abstract要約: 本稿では分散DL(DDL)ワークロードのための新しいGPUクラスタスケジューラを提案する。我々のスケジューラは、(i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム、(ii)ネットワークに敏感なジョブプリエンプション戦略、(iii)遅延タイマーを効果的に遅延スケジューリングするために最適化する「自動チューニング」メカニズムの3つの主要コンポーネントから構成される。
参考スコア（独自算出の注目度）: 19.344426053952464
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel GPU-cluster scheduler for distributed DL (DDL) workloads that enables proximity based consolidation of GPU resources based on the DDL jobs' sensitivities to the anticipated communication-network delays. Our scheduler consists of three major components: (i) a classical delay scheduling algorithm to facilitate job placement and consolidation; (ii) a network-sensitive job preemption strategy; and (iii) an "auto-tuner" mechanism to optimize delay timers for effective delay scheduling. Additionally, to enable a cost-effective methodology for large-scale experiments, we develop a data-driven DDL cluster simulation platform. Employing the simulation platform we compare against several state-of-the-art alternatives on real-world workload traces to demonstrate the benefits of our design. Our scheduler can provide improvement of up to 69% in end-to-end Makespan for training all jobs compared to the prevailing consolidation-based scheduling methods, while reducing the average job completion time by up to 83% and minimizing the communication overheads by up to 98% under congested networking conditions.
Abstract（参考訳）: 本稿では,ddlジョブのセンシティビティと通信ネットワーク遅延との近接性に基づくgpuリソースの統合を実現する,分散dl(ddl)ワークロードのための新しいgpuクラスタスケジューラを提案する。私たちのスケジューラは3つの主要コンポーネントで構成されています。 (i)ジョブ配置と統合を容易にする古典的な遅延スケジューリングアルゴリズム (二)ネットワークに敏感な就業先取り戦略及び (iii)効果的な遅延スケジューリングのために遅延タイマーを最適化する自動調整機構。さらに,大規模実験のための費用効率のよい手法を実現するため,データ駆動型DDLクラスタシミュレーションプラットフォームを開発した。シミュレーションプラットフォームを利用することで、現実のワークロードトレースにおける最先端の代替手段を比較して、設計のメリットを実証します。私たちのスケジューラは、一般的な統合型スケジューリング手法と比較して、すべてのジョブをトレーニングするために、エンドツーエンドで最大69%の改善を提供すると同時に、平均ジョブ完了時間を最大83%削減し、混雑するネットワーク条件下での通信オーバーヘッドを最大98%削減できる。

関連論文リスト

Multi-Agent Reinforcement Learning for Sample-Efficient Deep Neural Network Mapping [54.65536245955678]
本稿では,サンプル非効率性の課題を克服するために,分散型マルチエージェント強化学習(MARL)フレームワークを提案する。相関解析に基づいて類似のマッピングパラメータを同一エージェントに割り当てるエージェントクラスタリングアルゴリズムを提案する。実験の結果,MARL法は標準単エージェントRLよりも30～300倍効率が向上した。
論文参考訳（メタデータ） (2025-07-22T05:51:07Z)
Decentralized Distributed Proximal Policy Optimization (DD-PPO) for High Performance Computing Scheduling on Multi-User Systems [45.62643537023675]
本研究では,分散型分散プロキシポリシー最適化(DD-PPO)アルゴリズムを用いた新しいRLベースのスケジューラを提案する。 DD-PPOアルゴリズムは、各ステップでパラメータ同期を必要とせずに、複数のワーカーにまたがる大規模な分散トレーニングをサポートする。検証データセットは、1150万以上の実際のHPCジョブトレースを利用して、DD-PPOのパフォーマンスを従来のスケジューリング手法と高度なスケジューリング手法と比較した。
論文参考訳（メタデータ） (2025-05-06T19:50:37Z)
Prediction-Assisted Online Distributed Deep Learning Workload Scheduling in GPU Clusters [24.845122459974466]
本稿では,A-SRPT(Adaptive Shortest-Remaining-Time-first)スケジューリングアルゴリズムを提案する。ヘテロジニアスディープニューラルネットワーク(DNN)モデルに対応するグラフとして各ジョブをモデル化することにより、A-SRPTはジョブを利用可能なGPUに戦略的に割り当てる。 A-SRPTは複雑なスケジューリング問題を単一マシンのインスタンスにマッピングし、プリエンプティブな "shortest-remaining-processing-time-first" 戦略によって最適に対処する。
論文参考訳（メタデータ） (2025-01-09T20:19:01Z)
Split Learning in Computer Vision for Semantic Segmentation Delay Minimization [25.0679083637967]
分割学習(SL)を用いたセマンティックセグメンテーションにおける推論遅延を最小化する新しい手法を提案する。 SLはリソース制約のあるデバイスのためのリアルタイムコンピュータビジョン(CV)アプリケーションのニーズに合わせて調整されている。
論文参考訳（メタデータ） (2024-12-18T19:07:25Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
Scheduling Inference Workloads on Distributed Edge Clusters with Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文参考訳（メタデータ） (2023-01-31T13:23:34Z)
Time-sensitive Learning for Heterogeneous Federated Edge Intelligence [52.83633954857744]
フェデレーションエッジインテリジェンス(FEI)システムにおけるリアルタイム機械学習について検討する。 FEIシステムは異種通信と計算資源分布を示す。本稿では,共有MLモデルの協調学習における全体の実行時間を最小化するために,時間依存型フェデレーションラーニング(TS-FL)フレームワークを提案する。
論文参考訳（メタデータ） (2023-01-26T08:13:22Z)
Scheduling in Parallel Finite Buffer Systems: Optimal Decisions under Delayed Feedback [29.177402567437206]
本稿では,遅延認識の限られた情報の下で並列キューシステムにおけるスケジューリング決定をキャプチャする部分観測可能(PO)モデルを提案する。得られたポリシーが他の限られた情報スケジューリング戦略より優れていることを数値的に示す。本稿では,Kaggleが提供するネットワークデータを用いてリアルタイム並列処理を最適化する方法を示す。
論文参考訳（メタデータ） (2021-09-17T13:45:02Z)
Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文参考訳（メタデータ） (2021-06-07T11:37:03Z)
Better than the Best: Gradient-based Improper Reinforcement Learning for Network Scheduling [60.48359567964899]
パケット遅延を最小限に抑えるため,制約付き待ち行列ネットワークにおけるスケジューリングの問題を考える。我々は、利用可能な原子ポリシーよりも優れたスケジューラを生成するポリシー勾配に基づく強化学習アルゴリズムを使用する。
論文参考訳（メタデータ） (2021-05-01T10:18:34Z)
Tailored Learning-Based Scheduling for Kubernetes-Oriented Edge-Cloud System [54.588242387136376]
エッジクラウドシステムのための学習ベースのスケジューリングフレームワークkaisを紹介する。まず,分散した要求ディスパッチに対応するために,協調型マルチエージェントアクタ-クリティックアルゴリズムを設計する。次に,多種多様なシステムスケールと構造について,グラフニューラルネットワークを用いてシステム状態情報を埋め込む。第3に、リクエストディスパッチとサービスオーケストレーションを調和させる2段階のスケジューリングメカニズムを採用します。
論文参考訳（メタデータ） (2021-01-17T03:45:25Z)
Straggler-aware Distributed Learning: Communication Computation Latency Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文参考訳（メタデータ） (2020-04-10T08:39:36Z)
Communication Contention Aware Scheduling of Multiple Deep Learning Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。 LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文参考訳（メタデータ） (2020-02-24T07:50:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。