論文の概要: Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning
- arxiv url: http://arxiv.org/abs/2109.01611v1
- Date: Wed, 1 Sep 2021 04:46:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-06 13:54:32.130005
- Title: Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning
- Title(参考訳): GPU空間分割を用いたマルチモデル機械学習推論
- Authors: Seungbeom Choi, Sunho Lee, Yeonjae Kim, Jongse Park, Youngjin Kwon,
Jaehyuk Huh
- Abstract要約: 高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.05946599544139
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As machine learning techniques are applied to a widening range of
applications, high throughput machine learning (ML) inference servers have
become critical for online service applications. Such ML inference servers pose
two challenges: first, they must provide a bounded latency for each request to
support consistent service-level objective (SLO), and second, they can serve
multiple heterogeneous ML models in a system as certain tasks involve
invocation of multiple models and consolidating multiple models can improve
system utilization. To address the two requirements of ML inference servers,
this paper proposes a new ML inference scheduling framework for multi-model ML
inference servers. The paper first shows that with SLO constraints, current
GPUs are not fully utilized for ML inference tasks. To maximize the resource
efficiency of inference servers, a key mechanism proposed in this paper is to
exploit hardware support for spatial partitioning of GPU resources. With the
partitioning mechanism, a new abstraction layer of GPU resources is created
with configurable GPU resources. The scheduler assigns requests to virtual
GPUs, called gpu-lets, with the most effective amount of resources. The paper
also investigates a remedy for potential interference effects when two ML tasks
are running concurrently in a GPU. Our prototype implementation proves that
spatial partitioning enhances throughput by 102.6% on average while satisfying
SLOs.
- Abstract(参考訳): 機械学習技術が幅広いアプリケーションに適用されるにつれて、高スループット機械学習(ML)推論サーバはオンラインサービスアプリケーションにとって重要になっている。
ひとつは、一貫したサービスレベルの目的(SLO)をサポートするために、各要求に対してバウンダリのレイテンシを提供しなければならないこと、もうひとつは、複数のモデルの呼び出しと複数のモデルの統合によって、システム内で複数の異種MLモデルを提供できることである。
本稿では,ML推論サーバの2つの要件に対処するため,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文はまず、SLO制約により、現在のGPUはML推論タスクに完全には利用されないことを示した。
推論サーバのリソース効率を最大化するため,本論文では,gpuリソースの空間分割をハードウェアサポートとして活用する。
パーティショニングメカニズムにより、GPUリソースの新たな抽象化レイヤが構成可能なGPUリソースで作成される。
スケジューラは、最も効率的なリソース量で、gpu-letと呼ばれる仮想GPUにリクエストを割り当てる。
また、GPU上で2つのMLタスクが同時に実行されている場合の潜在的な干渉効果に対する対策についても検討する。
本実装では,SLOを満足しながら,空間分割によりスループットが平均102.6%向上することを示す。
関連論文リスト
- DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving [15.01982917560918]
本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。
我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。
オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - RedCoast: A Lightweight Tool to Automate Distributed Training of LLMs on Any GPU/TPUs [32.01139974519813]
大規模言語モデル(LLM)の分散トレーニングと推論を自動化するツールであるRedCoastを紹介する。
また,3つの関数の定義により,多様なMLパイプラインをカスタマイズする機構を提案する。
その結果、Redcoの実装は公式実装に比べてコード行数が大幅に減った。
論文 参考訳(メタデータ) (2023-10-25T04:32:35Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。