論文の概要: PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers
- arxiv url: http://arxiv.org/abs/2202.13481v1
- Date: Sun, 27 Feb 2022 23:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 14:47:50.352521
- Title: PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers
- Title(参考訳): PARISとELSA: 再構成可能なマルチGPU推論サーバのための弾性スケジューリングアルゴリズム
- Authors: Yunseong Kim, Yujeong Choi, Minsoo Rhu
- Abstract要約: NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
- 参考スコア(独自算出の注目度): 0.9854614058492648
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In cloud machine learning (ML) inference systems, providing low latency to
end-users is of utmost importance. However, maximizing server utilization and
system throughput is also crucial for ML service providers as it helps lower
the total-cost-of-ownership. GPUs have oftentimes been criticized for ML
inference usages as its massive compute and memory throughput is hard to be
fully utilized under low-batch inference scenarios. To address such limitation,
NVIDIA's recently announced Ampere GPU architecture provides features to
"reconfigure" one large, monolithic GPU into multiple smaller "GPU partitions".
Such feature provides cloud ML service providers the ability to utilize the
reconfigurable GPU not only for large-batch training but also for small-batch
inference with the potential to achieve high resource utilization. In this
paper, we study this emerging GPU architecture with reconfigurability to
develop a high-performance multi-GPU ML inference server. Our first proposition
is a sophisticated partitioning algorithm for reconfigurable GPUs that
systematically determines a heterogeneous set of multi-granular GPU partitions,
best suited for the inference server's deployment. Furthermore, we co-design an
elastic scheduling algorithm tailored for our heterogeneously partitioned GPU
server which effectively balances low latency and high GPU utilization.
- Abstract(参考訳): クラウド機械学習(ML)推論システムでは、エンドユーザに低レイテンシを提供することが最も重要です。
しかし、サーバ利用率とシステムスループットを最大化することは、mlサービスプロバイダにとって非常に重要です。
GPUは、大規模な計算とメモリスループットが低バッチの推論シナリオで完全に利用できないため、ML推論の使用に関してしばしば批判されている。
このような制限に対処するため、NVIDIAが最近発表したAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
この機能により、クラウドMLサービスプロバイダは、大規模なバッチトレーニングだけでなく、リソース利用率を高める可能性のある小さなバッチ推論にも、再構成可能なGPUを使用することができる。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
最初の提案は、再構成可能なGPUのための洗練されたパーティショニングアルゴリズムで、推論サーバのデプロイメントに最も適した、異種なマルチグラニュラGPUパーティショニングの集合を体系的に決定する。
さらに、低レイテンシと高GPU利用を効果的にバランスさせる、均一に分割されたGPUサーバに適した弾性スケジューリングアルゴリズムを共同設計する。
関連論文リスト
- MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - Hierarchical Resource Partitioning on Modern GPUs: A Reinforcement Learning Approach [1.076745840431781]
本稿では,階層的分割のセットアップと,与えられたジョブ集合からの協調スケジューリンググループの選択を包括的に協調する手法を提案する。
これにより、時間共有スケジューリングに比べて最大スループットが1.87倍向上する。
論文 参考訳(メタデータ) (2024-05-14T16:40:06Z) - NeRF-XL: Scaling NeRFs with Multiple GPUs [72.75214892939411]
我々は、複数のGPUにまたがるニューラルラジアンス場(NeRF)を分散する原理的手法であるNeRF-XLを提案する。
パラメータ数を大きくして再構成品質を向上し,GPUの高速化を実現した。
我々は,25km2の都市部をカバーする258K画像を含む,これまでで最大規模のオープンソースデータセットMatrixCityを含む,さまざまなデータセットに対するNeRF-XLの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-24T21:43:15Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - An Analysis of Collocation on GPUs for Deep Learning Training [0.0]
マルチインスタンスGPU(MIG)はNVIDIAが導入した新しい技術で、GPUをより良いワークロードに分割することができる。
本稿では,MIG対応A100 GPUの各種サイズとモデルの組み合わせを含むディープラーニングワークロードにおける性能について検討する。
論文 参考訳(メタデータ) (2022-09-13T14:13:06Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z) - GPU Domain Specialization via Composable On-Package Architecture [0.8240720472180706]
Composable On-Package GPU (COPAGPU)アーキテクチャは、ドメイン特化GPU製品を提供する。
我々は,COPA-GPUが,最大4倍のオフディー帯域幅,32倍のオンパッケージキャッシュ,2.3倍のDRAM帯域幅とキャパシティを備えたベースラインGPUアーキテクチャをモジュール化することにより,DL特化製品を実現する方法を示した。
論文 参考訳(メタデータ) (2021-04-05T23:06:50Z) - GPU-Accelerated Primal Learning for Extremely Fast Large-Scale
Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。
我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文 参考訳(メタデータ) (2020-08-08T03:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。