論文の概要: A Simulation Platform for Multi-tenant Machine Learning Services on
Thousands of GPUs
- arxiv url: http://arxiv.org/abs/2201.03175v1
- Date: Mon, 10 Jan 2022 06:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:46:59.616084
- Title: A Simulation Platform for Multi-tenant Machine Learning Services on
Thousands of GPUs
- Title(参考訳): 数千台のgpu上でのマルチテナント機械学習サービスのシミュレーションプラットフォーム
- Authors: Ruofan Liang, Bingsheng He, Shengen Yan, Peng Sun
- Abstract要約: AnalySIMは、マルチテナント機械学習サービスの効率的な設計探索を可能にするクラスタシミュレータである。
GPUリソースの利用など、さまざまなパフォーマンスメトリクスで、さまざまなスケジューリングポリシをテストし、分析することが可能になる。
プリエンプションとマイグレーションによって、平均的な仕事の完了時間が大幅に短縮できることがわかった。
- 参考スコア(独自算出の注目度): 38.92672037891692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-tenant machine learning services have become emerging data-intensive
workloads in data centers with heavy usage of GPU resources. Due to the large
scale, many tuning parameters and heavy resource usage, it is usually
impractical to evaluate and benchmark those machine learning services on real
clusters. In this demonstration, we present AnalySIM, a cluster simulator that
allows efficient design explorations for multi-tenant machine learning
services. Specifically, by trace-driven cluster workload simulation, AnalySIM
can easily test and analyze various scheduling policies in a number of
performance metrics such as GPU resource utilization. AnalySIM simulates the
cluster computational resource based on both physical topology and logical
partition. The tool has been used in SenseTime to understand the impact of
different scheduling policies with the trace from a real production cluster of
over 1000 GPUs. We find that preemption and migration are able to significantly
reduce average job completion time and mitigate the resource fragmentation
problem.
- Abstract(参考訳): マルチテナント機械学習サービスは、GPUリソースを多用したデータセンタにおいて、新たなデータ集約型ワークロードになりつつある。
大規模で多くのチューニングパラメータやリソース使用量が多いため、実際のクラスタ上でこれらの機械学習サービスを評価してベンチマークするのは現実的ではない。
本稿では,マルチテナント機械学習サービスの効率的な設計探索を可能にするクラスタシミュレータAnalySIMを提案する。
具体的には、トレース駆動のクラスタワークロードシミュレーションによって、gpuリソースの利用など多くのパフォーマンスメトリクスで、さまざまなスケジューリングポリシーをテストし、分析することができる。
AnalySIMは物理トポロジと論理分割の両方に基づいてクラスタ計算資源をシミュレートする。
このツールは、1000以上のGPUの実際のプロダクションクラスタからトレースされた、さまざまなスケジューリングポリシの影響を理解するために、SenseTimeで使用されている。
プリエンプションとマイグレーションは、平均的な仕事の完了時間を大幅に削減し、リソースの断片化問題を緩和することができる。
関連論文リスト
- GEqO: ML-Accelerated Semantic Equivalence Detection [3.5521901508676774]
クラスタリソースの効率的な利用とジョブ実行時間の削減には,共通計算が不可欠だ。
大規模分析エンジンの等価性を検出するには、完全に自動化された効率的でスケーラブルなソリューションが必要である。
本稿では,大規模で意味論的に等価な計算を効率的に識別する,ポータブルで軽量な機械学習ベースのフレームワークであるGEqOを提案する。
論文 参考訳(メタデータ) (2024-01-02T16:37:42Z) - Parallel $Q$-Learning: Scaling Off-policy Reinforcement Learning under
Massively Parallel Simulation [17.827002299991285]
強化学習は、大量のトレーニングデータを必要とするため、複雑なタスクに時間を要する。
アイザック・ギムのようなGPUベースのシミュレーションの最近の進歩は、コモディティGPU上で何千回もデータを収集している。
本稿では,PPOを壁面時間で上回る並列$Q$-Learning方式を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:59:37Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - SimCS: Simulation for Domain Incremental Online Continual Segmentation [60.18777113752866]
既存の継続学習アプローチは、主にクラス増分設定における画像分類に焦点を当てている。
シミュレーションデータを用いて連続学習を規則化するパラメータフリー手法であるSimCSを提案する。
論文 参考訳(メタデータ) (2022-11-29T14:17:33Z) - Aryl: An Elastic Cluster Scheduler for Deep Learning [12.942546041713596]
トレーニングと推論の両方の問題に対処する新しいクラスタスケジューラであるArylを紹介します。
Arylは、ジョブのトレーニングのために、アイドル推論サーバにキャパシティローンを導入している。
キャパシティローンやエラスティックスケーリングなしで、クラスタスケジューラ上で最大26.9%のクラスタ使用率向上を実現している。
論文 参考訳(メタデータ) (2022-02-16T07:03:25Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Synergy: Resource Sensitive DNN Scheduling in Multi-Tenant Clusters [10.38396444951436]
深層ニューラルネットワーク(DNN)のトレーニングは、企業とクラウドデータセンターの両方で広く使われているワークロードである。
共有GPUクラスタのためのリソースセンシティブなスケジューラであるSynergyを提案する。
実験の結果,従来のGPUに比例したスケジューリングに比べて,負荷対応のCPUとメモリアロケーションは平均JCTを3.4倍改善できることがわかった。
論文 参考訳(メタデータ) (2021-10-12T15:25:54Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Characterizing and Modeling Distributed Training with Transient Cloud
GPU Servers [6.56704851092678]
CM-DAREを用いて,多様なクラスタ構成下での分散トレーニング性能を解析する。
私たちの経験的データセットには、3つのGPUタイプ、6つの地理的領域、20の畳み込みニューラルネットワーク、数千のGoogle Cloudサーバからの計測が含まれています。
また、回帰モデルを用いてトレーニング速度とオーバーヘッドを予測することが可能であることを示す。
論文 参考訳(メタデータ) (2020-04-07T01:49:58Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。