Fugu-MT 論文翻訳(概要): Characterization and Prediction of Deep Learning Workloads in Large-Scale GPU Datacenters

論文の概要: Characterization and Prediction of Deep Learning Workloads in Large-Scale GPU Datacenters

arxiv url: http://arxiv.org/abs/2109.01313v2
Date: Mon, 6 Sep 2021 01:26:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-07 11:50:02.385924
Title: Characterization and Prediction of Deep Learning Workloads in Large-Scale GPU Datacenters
Title（参考訳）: 大規模GPUデータセンターにおけるディープラーニングワークロードの特性と予測
Authors: Qinghao Hu, Peng Sun, Shengen Yan, Yonggang Wen, Tianwei Zhang
Abstract要約: 本稿では,Deep Learningジョブの特徴と資源管理に関する総合的研究について述べる。本稿では,歴史データに基づく資源管理を行う汎用フレームワークを提案する。ケーススタディでは、クラスタ全体の平均ジョブ完了時間を最大6.5倍に抑えるQuasi-Shortest-Service-Firstスケジューリングサービスと、クラスタ全体の使用率を最大13%改善するCluster Energy Savingサービスを設計する。
参考スコア（独自算出の注目度）: 30.952491139350908
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern GPU datacenters are critical for delivering Deep Learning (DL) models and services in both the research community and industry. When operating a datacenter, optimization of resource scheduling and management can bring significant financial benefits. Achieving this goal requires a deep understanding of the job features and user behaviors. We present a comprehensive study about the characteristics of DL jobs and resource management. First, we perform a large-scale analysis of real-world job traces from SenseTime. We uncover some interesting conclusions from the perspectives of clusters, jobs and users, which can facilitate the cluster system designs. Second, we introduce a general-purpose framework, which manages resources based on historical data. As case studies, we design: a Quasi-Shortest-Service-First scheduling service, which can minimize the cluster-wide average job completion time by up to 6.5x; and a Cluster Energy Saving service, which improves overall cluster utilization by up to 13%.
Abstract（参考訳）: 現代のGPUデータセンタは、Deep Learning(DL)モデルとサービスを研究コミュニティと業界の両方で提供する上で、極めて重要です。データセンターを運用する場合、リソーススケジューリングと管理の最適化は、大きな経済的利益をもたらす可能性がある。この目標を達成するには、ジョブ機能とユーザの振る舞いを深く理解する必要がある。本稿では,DLジョブの特性と資源管理に関する総合的研究について述べる。まず,SenseTimeから得られた実世界のジョブトレースを大規模に分析する。クラスタシステムの設計を容易にするクラスタ,ジョブ,ユーザの観点から,興味深い結論がいくつか出ています。第2に,歴史データに基づいて資源を管理する汎用フレームワークを提案する。ケーススタディとして,クラスタ全体の平均ジョブ完了時間を最大6.5倍に抑える準短サービスファーストスケジューリングサービスと,クラスタ全体の利用率を最大13%向上させるクラスタ省エネサービスを設計した。

関連論文リスト

Kant: An Efficient Unified Scheduling System for Large-Scale AI Clusters [12.201930084664454]
Kantは、大規模なAIコンテナクラスタのための効率的な統合スケジューリングプラットフォームである。システムはトレーニングと推論の両方のジョブのスケジューリングをサポートする。システムは数百から数万のGPUのクラスタにおいて、例外的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-09-25T02:25:12Z)
Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文参考訳（メタデータ） (2025-08-05T08:03:12Z)
Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey [48.06362354403557]
本調査は,大規模分散DLの効率的な資源配分とワークロードスケジューリング戦略について,主に2019年から2024年までの文献を概説する。トピックごとに重要な課題を強調し、既存の技術に関する重要な洞察について議論する。この調査は、コンピュータ科学、人工知能、通信研究者が最近の進歩を理解することを奨励することを目的としている。
論文参考訳（メタデータ） (2024-06-12T11:51:44Z)
Deep Learning for Trajectory Data Management and Mining: A Survey and Beyond [58.63558696061679]
軌道計算は、位置サービス、都市交通、公共安全など、様々な実用用途において重要である。トラジェクトリ・コンピューティングのためのディープラーニング(DL4Traj)の開発と最近の進歩について概観する。特に、軌道計算を増強する可能性を持つ大規模言語モデル(LLM)の最近の進歩をカプセル化する。
論文参考訳（メタデータ） (2024-03-21T05:57:27Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
A Review of Deep Reinforcement Learning in Serverless Computing: Function Scheduling and Resource Auto-Scaling [2.0722667822370386]
本稿では、サーバーレスコンピューティングにおけるDeep Reinforcement Learning(DRL)技術の適用について、包括的なレビューを行う。 DRLをサーバレスコンピューティングに適用する最近の研究の体系的なレビューが、さまざまなアルゴリズム、モデル、パフォーマンスについて紹介されている。分析の結果,DRLは環境から学習・適応する能力を有しており,機能スケジューリングと資源スケーリングの効率化に期待できる結果が得られた。
論文参考訳（メタデータ） (2023-10-05T09:26:04Z)
On Efficient Training of Large-Scale Deep Learning Models: A Literature Review [90.87691246153612]
ディープラーニングの分野は特にコンピュータビジョン(CV)、自然言語処理(NLP)、音声などにおいて大きな進歩を遂げている。大量のデータに基づいてトレーニングされた大規模なモデルを使用することは、実用的なアプリケーションにとって大きな可能性を秘めている。計算能力の需要が増大する中で、ディープラーニングモデルの訓練の加速技術に関する包括的な要約が期待されている。
論文参考訳（メタデータ） (2023-04-07T11:13:23Z)
Deep Learning Workload Scheduling in GPU Datacenters: Taxonomy, Challenges and Vision [23.09494338914838]
本稿では、トレーニングと推論の両方のワークロードに関する既存の研究成果について調査する。主に、スケジューリング目的とリソース消費機能から、既存のスケジューラがそれぞれのワークロードをどのように促進するかを示す。
論文参考訳（メタデータ） (2022-05-24T09:18:06Z)
The MIT Supercloud Workload Classification Challenge [10.458111248130944]
本稿では,MIT Supercloudデータセットに基づくワークロード分類の課題について述べる。この課題の目標は、計算ワークロードの分析におけるアルゴリズムのイノベーションを促進することである。
論文参考訳（メタデータ） (2022-04-12T14:28:04Z)
Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文参考訳（メタデータ） (2020-10-06T16:51:09Z)
A Privacy-Preserving Distributed Architecture for Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文参考訳（メタデータ） (2020-03-30T15:12:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。