論文の概要: Serving DNN Models with Multi-Instance GPUs: A Case of the
Reconfigurable Machine Scheduling Problem
- arxiv url: http://arxiv.org/abs/2109.11067v1
- Date: Sat, 18 Sep 2021 19:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-26 22:33:23.238683
- Title: Serving DNN Models with Multi-Instance GPUs: A Case of the
Reconfigurable Machine Scheduling Problem
- Title(参考訳): マルチインスタンスGPUを用いた実時間DNNモデル:再構成可能なマシンスケジューリング問題の事例
- Authors: Cheng Tan, Zhichao Li, Jian Zhang, Yu Cao, Sikai Qi, Zherui Liu, Yibo
Zhu, Chuanxiong Guo
- Abstract要約: マルチインスタンス(MIG)は、NVIDIA A100 GPUによって導入された新機能で、1つの物理GPUを複数のGPUインスタンスに分割する。
MIGでは、A100はDeep Neural Networks(DNN)を提供する上で、最もコスト効率のよいGPUとなる。
- 参考スコア(独自算出の注目度): 11.323846670707164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-Instance GPU (MIG) is a new feature introduced by NVIDIA A100 GPUs that
partitions one physical GPU into multiple GPU instances. With MIG, A100 can be
the most cost-efficient GPU ever for serving Deep Neural Networks (DNNs).
However, discovering the most efficient GPU partitions is challenging. The
underlying problem is NP-hard; moreover, it is a new abstract problem, which we
define as the Reconfigurable Machine Scheduling Problem (RMS). This paper
studies serving DNNs with MIG, a new case of RMS. We further propose a
solution, MIG-serving. MIG- serving is an algorithm pipeline that blends a
variety of newly designed algorithms and customized classic algorithms,
including a heuristic greedy algorithm, Genetic Algorithm (GA), and Monte Carlo
Tree Search algorithm (MCTS). We implement MIG-serving on Kubernetes. Our
experiments show that compared to using A100 as-is, MIG-serving can save up to
40% of GPUs while providing the same throughput.
- Abstract(参考訳): マルチインスタンスGPU(MIG)は、NVIDIA A100 GPUによって導入された新機能で、1つの物理GPUを複数のGPUインスタンスに分割する。
MIGでは、A100はDeep Neural Networks(DNN)を提供する上で、最もコスト効率のよいGPUとなる。
しかし、最も効率的なGPUパーティションを見つけることは難しい。
根本的な問題はnp-hardであり、さらに、再構成可能なマシンスケジューリング問題(rms)として定義する新しい抽象的な問題である。
RMSの新しい症例であるMIGを用いたDNNについて検討する。
さらに、MIGサービングというソリューションを提案する。
mig- servingは、ヒューリスティック・グリーディアルゴリズム、遺伝的アルゴリズム(ga)、モンテカルロ木探索アルゴリズム(mcts)など、新しく設計されたアルゴリズムとカスタマイズされた古典アルゴリズムを組み合わせたアルゴリズムパイプラインである。
私たちはKubernetesにMIGサービスを実装しています。
実験の結果、A100 as-isを使用する場合と比較して、MIGサービングは同じスループットを提供しながら、最大40%のGPUを節約できることがわかった。
関連論文リスト
- Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文 参考訳(メタデータ) (2023-10-19T17:09:06Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - A Metaheuristic Algorithm for Large Maximum Weight Independent Set
Problems [58.348679046591265]
ノード重み付きグラフが与えられたとき、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。
このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。
我々は,不規則なランダム化適応検索フレームワークにおいてメタヒューリスティックな新しい局所探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-03-28T21:34:16Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Bringing UMAP Closer to the Speed of Light with GPU Acceleration [28.64858826371568]
UMAPの高速で忠実なGPUバージョンを作るために使用できるテクニックをいくつか紹介する。
これらの設計選択/無数の多くは汎用的であり、GPUを使用するための他のグラフおよび多様体学習アルゴリズムの変換を知らせる可能性がある。
論文 参考訳(メタデータ) (2020-08-01T19:35:56Z) - Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。
提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文 参考訳(メタデータ) (2020-06-26T21:03:45Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Implementing a GPU-based parallel MAX-MIN Ant System [0.0]
我々はGPUベースの並列MMASの実装を改善するための新しいアイデアについて論じる。
MMAS実装は、最先端のGPUベースおよびマルチコアCPUベースの並列ACO実装と競合することを示す。
論文 参考訳(メタデータ) (2020-01-18T14:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。