論文の概要: Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters
- arxiv url: http://arxiv.org/abs/2110.06073v1
- Date: Tue, 12 Oct 2021 15:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 15:36:26.499280
- Title: Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters
- Title(参考訳): Synergy:マルチテナントクラスタにおけるリソース感性DNNスケジューリング
- Authors: Jayashree Mohan, Amar Phanishayee, Janardhan Kulkarni, Vijay
Chidambaram
- Abstract要約: 深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。
共有GPUクラスタのためのリソースセンシティブなスケジューラであるSynergyを提案する。
実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。
- 参考スコア(独自算出の注目度): 10.38396444951436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training Deep Neural Networks (DNNs) is a widely popular workload in both
enterprises and cloud data centers. Existing schedulers for DNN training
consider GPU as the dominant resource, and allocate other resources such as CPU
and memory proportional to the number of GPUs requested by the job.
Unfortunately, these schedulers do not consider the impact of a job's
sensitivity to allocation of CPU, memory, and storage resources. In this work,
we propose Synergy, a resource-sensitive scheduler for shared GPU clusters.
Synergy infers the sensitivity of DNNs to different resources using optimistic
profiling; some jobs might benefit from more than the GPU-proportional
allocation and some jobs might not be affected by less than GPU-proportional
allocation. Synergy performs such multi-resource workload-aware assignments
across a set of jobs scheduled on shared multi-tenant clusters using a new
near-optimal online algorithm. Our experiments show that workload-aware CPU and
memory allocations can improve average JCT up to 3.4x when compared to
traditional GPU-proportional scheduling.
- Abstract(参考訳): 深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。
DNNトレーニングの既存のスケジューラは、GPUを主要なリソースと考え、ジョブが要求するGPUの数に比例したCPUやメモリなどの他のリソースを割り当てる。
残念ながら、これらのスケジューラは、cpu、メモリ、ストレージリソースの割り当てに対するジョブの感度の影響を考慮しない。
本稿では,共有gpuクラスタのためのリソースセンシティブなスケジューラであるsynergyを提案する。
Synergyは、楽観的なプロファイリングを使用して異なるリソースに対してDNNの感度を推測する。一部のジョブはGPUのプロポーショナルアロケーション以上の恩恵を受け、一部のジョブはGPUのプロポーショナルアロケーションよりも影響を受けない可能性がある。
synergyは新しい最適化のオンラインアルゴリズムを使用して、共有マルチテナントクラスタ上でスケジュールされた一連のジョブに対して、このようなマルチリソースのワークロード対応割り当てを実行する。
実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - SGPRS: Seamless GPU Partitioning Real-Time Scheduler for Periodic Deep Learning Workloads [0.9898607871253774]
構成分割スイッチのゼロを考慮した最初のリアルタイムGPUスケジューラであるSGPRSを提案する。
提案するスケジューラは、並列タスクの期限を多く満たすだけでなく、ピボットポイントを越えた全体的なパフォーマンスも維持する。
論文 参考訳(メタデータ) (2024-04-13T18:29:26Z) - Compass: A Decentralized Scheduler for Latency-Sensitive ML Workflows [0.792324422300924]
我々は、GPU対応のワーカが協調して複雑なクエリを実行する分散システムにおけるMLクエリ処理について検討する。
このようなシステムでは、GPUメモリ管理とタスク配置の共スケジューリングが有望な機会である。
資源を効率的に利用しながら、仕事の遅延を軽減するためにこれらの機能を統一する新しいフレームワークであるCompassを提案する。
論文 参考訳(メタデータ) (2024-02-27T16:21:28Z) - Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse
Multi-DNN Workloads [65.47816359465155]
複数のディープニューラルネットワーク(DNN)を並列に実行することは、両エッジデバイスで新たなワークロードとなっている。
スパースマルチDNNスケジューリングに静的なスケジューラパターンと動的スケジューラ情報の両方を利用する新しいスケジューラDystaを提案する。
提案手法は, 遅延制約違反率を最大10%削減し, 平均正規化ターンアラウンド時間で約4倍に向上する。
論文 参考訳(メタデータ) (2023-10-17T09:25:17Z) - Miriam: Exploiting Elastic Kernels for Real-time Multi-DNN Inference on
Edge GPU [7.972518585452826]
マルチディープニューラルネットワーク(DNN)の同時実行
MiriamはエッジGPU上のマルチDNN推論のための競合認識タスクコーディネートフレームワークである。
論文 参考訳(メタデータ) (2023-07-10T04:30:44Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - Efficient Strong Scaling Through Burst Parallel Training [13.656104138147967]
大規模なGPUクラスタを使用して、ディープニューラルネットワーク(DNN)モデルをトレーニングすることが、必須の要件になっています。
この効率問題に対処するシステムDeepPoolを2つの重要なアイデアで紹介する。
論文 参考訳(メタデータ) (2021-12-19T05:18:39Z) - BFTrainer: Low-Cost Training of Neural Networks on Unfillable
Supercomputer Nodes [0.8201100713224002]
FCFSベースのスケジューリングポリシーは、多くの一時的なアイドルノードをもたらす。
我々は、これらの無駄なリソース、すなわちディープニューラルネットワーク(DNN)トレーニングに対して、新しい用途を実現する方法を示す。
論文 参考訳(メタデータ) (2021-06-22T22:53:19Z) - Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep
Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。
Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文 参考訳(メタデータ) (2020-08-27T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。