論文の概要: Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy,
Challenges and Vision
- arxiv url: http://arxiv.org/abs/2205.11913v2
- Date: Wed, 25 May 2022 06:24:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 12:02:18.951848
- Title: Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy,
Challenges and Vision
- Title(参考訳): GPUデータセンタにおけるディープラーニングワークロードスケジューリング - 分類学、課題、ビジョン
- Authors: Wei Gao, Qinghao Hu, Zhisheng Ye, Peng Sun, Xiaolin Wang, Yingwei Luo,
Tianwei Zhang, Yonggang Wen
- Abstract要約: 本稿では、トレーニングと推論の両方のワークロードに関する既存の研究成果について調査する。
主に、スケジューリング目的とリソース消費機能から、既存のスケジューラがそれぞれのワークロードをどのように促進するかを示す。
- 参考スコア(独自算出の注目度): 23.09494338914838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) shows its prosperity in a wide variety of fields. The
development of a DL model is a time-consuming and resource-intensive procedure.
Hence, dedicated GPU accelerators have been collectively constructed into a GPU
datacenter. An efficient scheduler design for such GPU datacenter is crucially
important to reduce the operational cost and improve resource utilization.
However, traditional approaches designed for big data or high performance
computing workloads can not support DL workloads to fully utilize the GPU
resources. Recently, substantial schedulers are proposed to tailor for DL
workloads in GPU datacenters. This paper surveys existing research efforts for
both training and inference workloads. We primarily present how existing
schedulers facilitate the respective workloads from the scheduling objectives
and resource consumption features. Finally, we prospect several promising
future research directions. More detailed summary with the surveyed paper and
code links can be found at our project website:
https://github.com/S-Lab-System-Group/Awesome-DL-Scheduling-Papers
- Abstract(参考訳): ディープラーニング(DL)は、様々な分野でその繁栄を示している。
DLモデルの開発は、時間とリソース集約的な手順である。
そのため、専用のGPUアクセラレータがGPUデータセンタに集合的に構築されている。
このようなGPUデータセンターの効率的なスケジューラ設計は、運用コストを削減し、リソース利用を改善するために極めて重要である。
しかし、ビッグデータやハイパフォーマンスコンピューティングワークロード用に設計された従来のアプローチは、GPUリソースを完全に活用するDLワークロードをサポートしない。
近年,GPUデータセンタにおけるDLワークロードの調整を目的としたスケジューラが提案されている。
本稿では,トレーニング作業と推論作業の両方に対する既存の研究成果について報告する。
主に、スケジューリング目的とリソース消費機能から、既存のスケジューラがそれぞれのワークロードをどのように促進するかを示す。
最後に、将来有望な研究の方向性を期待する。
調査した論文とコードリンクの詳細は、プロジェクトのWebサイト(https://github.com/S-Lab-System-Group/Awesome-DL-Scheduling-Papers)で確認できます。
関連論文リスト
- Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond [58.63558696061679]
軌道計算は、位置サービス、都市交通、公共安全など、様々な実用用途において重要である。
トラジェクトリ・コンピューティングのためのディープラーニング(DL4Traj)の開発と最近の進歩について概観する。
特に、軌道計算を増強する可能性を持つ大規模言語モデル(LLM)の最近の進歩をカプセル化する。
論文 参考訳(メタデータ) (2024-03-21T05:57:27Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - A Frequency-aware Software Cache for Large Recommendation System
Embeddings [11.873521953539361]
ディープラーニングレコメンデーションモデル(DLRM)はインターネット企業で広く採用されている。
本稿では,CPU と GPU メモリ空間の埋め込みテーブルを動的に管理するために,GPU ベースのソフトウェアキャッシュ手法を提案する。
提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。
論文 参考訳(メタデータ) (2022-08-08T12:08:05Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters [10.38396444951436]
深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。
共有GPUクラスタのためのリソースセンシティブなスケジューラであるSynergyを提案する。
実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-12T15:25:54Z) - Characterization and Prediction of Deep Learning Workloads in
Large-Scale GPU Datacenters [30.952491139350908]
本稿では,Deep Learningジョブの特徴と資源管理に関する総合的研究について述べる。
本稿では,歴史データに基づく資源管理を行う汎用フレームワークを提案する。
ケーススタディでは、クラスタ全体の平均ジョブ完了時間を最大6.5倍に抑えるQuasi-Shortest-Service-Firstスケジューリングサービスと、クラスタ全体の使用率を最大13%改善するCluster Energy Savingサービスを設計する。
論文 参考訳(メタデータ) (2021-09-03T05:02:52Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Understanding Training Efficiency of Deep Learning Recommendation Models
at Scale [8.731263641794897]
本稿では,リコメンデーションモデルのトレーニングにGPUを使うことの難しさについて説明する。
スケールにおけるハードウェア効率に影響を与える要因と、新しいスケールアップGPUサーバ設計であるZionから学んだこと。
論文 参考訳(メタデータ) (2020-11-11T01:21:43Z) - Importance of Data Loading Pipeline in Training Deep Neural Networks [2.127049691404299]
大規模なモデルでは、データのロードに費やす時間は、モデルのトレーニング時間の大部分を要します。
データ読み込みを高速化するためにバイナリデータフォーマットと、データ拡張を高速化するためにNVIDIA DALIを比較した。
本研究は、そのような専用ツールを使用する場合、20%から40%の順に改善されていることを示す。
論文 参考訳(メタデータ) (2020-04-21T14:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。