論文の概要: Characterization and Prediction of Deep Learning Workloads in
Large-Scale GPU Datacenters
- arxiv url: http://arxiv.org/abs/2109.01313v2
- Date: Mon, 6 Sep 2021 01:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 11:50:02.385924
- Title: Characterization and Prediction of Deep Learning Workloads in
Large-Scale GPU Datacenters
- Title(参考訳): 大規模GPUデータセンターにおけるディープラーニングワークロードの特性と予測
- Authors: Qinghao Hu, Peng Sun, Shengen Yan, Yonggang Wen, Tianwei Zhang
- Abstract要約: 本稿では,Deep Learningジョブの特徴と資源管理に関する総合的研究について述べる。
本稿では,歴史データに基づく資源管理を行う汎用フレームワークを提案する。
ケーススタディでは、クラスタ全体の平均ジョブ完了時間を最大6.5倍に抑えるQuasi-Shortest-Service-Firstスケジューリングサービスと、クラスタ全体の使用率を最大13%改善するCluster Energy Savingサービスを設計する。
- 参考スコア(独自算出の注目度): 30.952491139350908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern GPU datacenters are critical for delivering Deep Learning (DL) models
and services in both the research community and industry. When operating a
datacenter, optimization of resource scheduling and management can bring
significant financial benefits. Achieving this goal requires a deep
understanding of the job features and user behaviors. We present a
comprehensive study about the characteristics of DL jobs and resource
management. First, we perform a large-scale analysis of real-world job traces
from SenseTime. We uncover some interesting conclusions from the perspectives
of clusters, jobs and users, which can facilitate the cluster system designs.
Second, we introduce a general-purpose framework, which manages resources based
on historical data. As case studies, we design: a Quasi-Shortest-Service-First
scheduling service, which can minimize the cluster-wide average job completion
time by up to 6.5x; and a Cluster Energy Saving service, which improves overall
cluster utilization by up to 13%.
- Abstract(参考訳): 現代のGPUデータセンタは、Deep Learning(DL)モデルとサービスを研究コミュニティと業界の両方で提供する上で、極めて重要です。
データセンターを運用する場合、リソーススケジューリングと管理の最適化は、大きな経済的利益をもたらす可能性がある。
この目標を達成するには、ジョブ機能とユーザの振る舞いを深く理解する必要がある。
本稿では,DLジョブの特性と資源管理に関する総合的研究について述べる。
まず,SenseTimeから得られた実世界のジョブトレースを大規模に分析する。
クラスタシステムの設計を容易にするクラスタ,ジョブ,ユーザの観点から,興味深い結論がいくつか出ています。
第2に,歴史データに基づいて資源を管理する汎用フレームワークを提案する。
ケーススタディとして,クラスタ全体の平均ジョブ完了時間を最大6.5倍に抑える準短サービスファーストスケジューリングサービスと,クラスタ全体の利用率を最大13%向上させるクラスタ省エネサービスを設計した。
関連論文リスト
- Characterization of Large Language Model Development in the Datacenter [57.49531095113406]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - A Review of Deep Reinforcement Learning in Serverless Computing:
Function Scheduling and Resource Auto-Scaling [2.0722667822370386]
本稿では、サーバーレスコンピューティングにおけるDeep Reinforcement Learning(DRL)技術の適用について、包括的なレビューを行う。
DRLをサーバレスコンピューティングに適用する最近の研究の体系的なレビューが、さまざまなアルゴリズム、モデル、パフォーマンスについて紹介されている。
分析の結果,DRLは環境から学習・適応する能力を有しており,機能スケジューリングと資源スケーリングの効率化に期待できる結果が得られた。
論文 参考訳(メタデータ) (2023-10-05T09:26:04Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the
Ugly [66.19763977571114]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - On Efficient Training of Large-Scale Deep Learning Models: A Literature
Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。
大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。
計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文 参考訳(メタデータ) (2023-04-07T11:13:23Z) - Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy,
Challenges and Vision [23.09494338914838]
本稿では、トレーニングと推論の両方のワークロードに関する既存の研究成果について調査する。
主に、スケジューリング目的とリソース消費機能から、既存のスケジューラがそれぞれのワークロードをどのように促進するかを示す。
論文 参考訳(メタデータ) (2022-05-24T09:18:06Z) - The MIT Supercloud Workload Classification Challenge [10.458111248130944]
本稿では,MIT Supercloudデータセットに基づくワークロード分類の課題について述べる。
この課題の目標は、計算ワークロードの分析におけるアルゴリズムのイノベーションを促進することである。
論文 参考訳(メタデータ) (2022-04-12T14:28:04Z) - The MIT Supercloud Dataset [3.375826083518709]
我々は、大規模なHPCとデータセンター/クラウドオペレーションの分析において、革新的なAI/MLアプローチを促進することを目的とした、MIT Supercloudデータセットを紹介します。
我々は、ジョブ毎のCPUおよびGPU使用率、メモリ使用率、ファイルシステムログ、物理モニタリングデータを含む、MIT Supercloudシステムから詳細な監視ログを提供する。
本稿では,データセットの詳細,収集手法,データ可用性について論じ,このデータを用いて開発されている潜在的な課題について論じる。
論文 参考訳(メタデータ) (2021-08-04T13:06:17Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - A Privacy-Preserving Distributed Architecture for
Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。
クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文 参考訳(メタデータ) (2020-03-30T15:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。