Fugu-MT 論文翻訳(概要): Serving DNN Models with Multi-Instance GPUs: A Case of the Reconfigurable Machine Scheduling Problem

論文の概要: Serving DNN Models with Multi-Instance GPUs: A Case of the Reconfigurable Machine Scheduling Problem

arxiv url: http://arxiv.org/abs/2109.11067v1
Date: Sat, 18 Sep 2021 19:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-26 22:33:23.238683
Title: Serving DNN Models with Multi-Instance GPUs: A Case of the Reconfigurable Machine Scheduling Problem
Title（参考訳）: マルチインスタンスGPUを用いた実時間DNNモデル:再構成可能なマシンスケジューリング問題の事例
Authors: Cheng Tan, Zhichao Li, Jian Zhang, Yu Cao, Sikai Qi, Zherui Liu, Yibo Zhu, Chuanxiong Guo
Abstract要約: マルチインスタンス(MIG)は、NVIDIA A100 GPUによって導入された新機能で、1つの物理GPUを複数のGPUインスタンスに分割する。 MIGでは、A100はDeep Neural Networks(DNN)を提供する上で、最もコスト効率のよいGPUとなる。
参考スコア（独自算出の注目度）: 11.323846670707164
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-Instance GPU (MIG) is a new feature introduced by NVIDIA A100 GPUs that partitions one physical GPU into multiple GPU instances. With MIG, A100 can be the most cost-efficient GPU ever for serving Deep Neural Networks (DNNs). However, discovering the most efficient GPU partitions is challenging. The underlying problem is NP-hard; moreover, it is a new abstract problem, which we define as the Reconfigurable Machine Scheduling Problem (RMS). This paper studies serving DNNs with MIG, a new case of RMS. We further propose a solution, MIG-serving. MIG- serving is an algorithm pipeline that blends a variety of newly designed algorithms and customized classic algorithms, including a heuristic greedy algorithm, Genetic Algorithm (GA), and Monte Carlo Tree Search algorithm (MCTS). We implement MIG-serving on Kubernetes. Our experiments show that compared to using A100 as-is, MIG-serving can save up to 40% of GPUs while providing the same throughput.
Abstract（参考訳）: マルチインスタンスGPU(MIG)は、NVIDIA A100 GPUによって導入された新機能で、1つの物理GPUを複数のGPUインスタンスに分割する。 MIGでは、A100はDeep Neural Networks(DNN)を提供する上で、最もコスト効率のよいGPUとなる。しかし、最も効率的なGPUパーティションを見つけることは難しい。根本的な問題はnp-hardであり、さらに、再構成可能なマシンスケジューリング問題(rms)として定義する新しい抽象的な問題である。 RMSの新しい症例であるMIGを用いたDNNについて検討する。さらに、MIGサービングというソリューションを提案する。 mig- servingは、ヒューリスティック・グリーディアルゴリズム、遺伝的アルゴリズム(ga)、モンテカルロ木探索アルゴリズム(mcts)など、新しく設計されたアルゴリズムとカスタマイズされた古典アルゴリズムを組み合わせたアルゴリズムパイプラインである。私たちはKubernetesにMIGサービスを実装しています。実験の結果、A100 as-isを使用する場合と比較して、MIGサービングは同じスループットを提供しながら、最大40%のGPUを節約できることがわかった。

関連論文リスト

A Parallel CPU-GPU Framework for Cost-Bounded DFS with Applications to IDA* and BTS [13.186524200050957]
本稿では,深度第一探索におけるGPU計算手法を提案する。これは、Iterative Deepening A* (IDA*)アルゴリズムの拡張であるemphsynchronous IDA*のようなアルゴリズムを作成するために使用される。本研究では, 3x3 の Rubik Cube と 4x4 のスライディングタイルパズル (STP) に対するアプローチを評価し,GPU 操作を DFS で効率的にバッチ化可能であることを示す。
論文参考訳（メタデータ） (2025-07-16T05:07:33Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
HeterMoE: Efficient Training of Mixture-of-Experts Models on Heterogeneous GPUs [26.00138507762884]
HeterMoEは、異種GPU上でMoEモデルを効率的にトレーニングするシステムである。 HeterMoEは既存のMoEトレーニングシステムと比較して最大2.3倍のスピードアップを実現している。
論文参考訳（メタデータ） (2025-04-04T18:55:52Z)
Benchmarking GPUs on SVBRDF Extractor Model [0.0]
本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能を区別する。本研究では、より大きな入力画像(256x256)で動作するニューラルネットワークモデル上での異なるGPUの性能の差別化を試みた。
論文参考訳（メタデータ） (2023-10-19T17:09:06Z)
An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文参考訳（メタデータ） (2022-09-13T14:13:06Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
A Metaheuristic Algorithm for Large Maximum Weight Independent Set Problems [58.348679046591265]
ノード重み付きグラフが与えられたとき、ノード重みが最大となる独立した(相互に非隣接な)ノードの集合を見つける。このアプリケーションで放送されるグラフの中には、数十万のノードと数億のエッジを持つ大きなものもあります。我々は,不規則なランダム化適応検索フレームワークにおいてメタヒューリスティックな新しい局所探索アルゴリズムを開発した。
論文参考訳（メタデータ） (2022-03-28T21:34:16Z)
PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文参考訳（メタデータ） (2022-02-27T23:30:55Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文参考訳（メタデータ） (2022-01-16T07:22:47Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Bringing UMAP Closer to the Speed of Light with GPU Acceleration [28.64858826371568]
UMAPの高速で忠実なGPUバージョンを作るために使用できるテクニックをいくつか紹介する。これらの設計選択/無数の多くは汎用的であり、GPUを使用するための他のグラフおよび多様体学習アルゴリズムの変換を知らせる可能性がある。
論文参考訳（メタデータ） (2020-08-01T19:35:56Z)
Hybrid Models for Learning to Branch [81.93868699246214]
我々はCPUマシン上で効率的な分岐を行うための新しいハイブリッドアーキテクチャを提案する。提案アーキテクチャは,GNNの表現力と分岐処理のための計算コストの低い多層パーセプトロン(MLP)を組み合わせる。
論文参考訳（メタデータ） (2020-06-26T21:03:45Z)
MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文参考訳（メタデータ） (2020-04-16T16:20:53Z)
Implementing a GPU-based parallel MAX-MIN Ant System [0.0]
我々はGPUベースの並列MMASの実装を改善するための新しいアイデアについて論じる。 MMAS実装は、最先端のGPUベースおよびマルチコアCPUベースの並列ACO実装と競合することを示す。
論文参考訳（メタデータ） (2020-01-18T14:18:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。