論文の概要: ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2410.01228v1
- Date: Wed, 02 Oct 2024 04:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:20:09.410778
- Title: ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving
- Title(参考訳): ConServe: 低レイテンシと高スループット大言語モデルのハーベスティングGPU
- Authors: Yifan Qiao, Shu Anzai, Shan Yu, Haoran Ma, Yang Wang, Miryung Kim, Harry Xu,
- Abstract要約: 本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。
我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。
オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
- 参考スコア(独自算出の注目度): 15.01982917560918
- License:
- Abstract: Many applications are leveraging large language models (LLMs) for complex tasks, and they generally demand low inference latency and high serving throughput for interactive online jobs such as chatbots. However, the tight latency requirement and high load variance of applications pose challenges to serving systems in achieving high GPU utilization. Due to the high costs of scheduling and preemption, today's systems generally use separate clusters to serve online and offline inference tasks, and dedicate GPUs for online inferences to avoid interference. This approach leads to underutilized GPUs because one must reserve enough GPU resources for the peak expected load, even if the average load is low. This paper proposes to harvest stranded GPU resources for offline LLM inference tasks such as document summarization and LLM benchmarking. Unlike online inferences, these tasks usually run in a batch-processing manner with loose latency requirements, making them a good fit for stranded resources that are only available shortly. To enable safe and efficient GPU harvesting without interfering with online tasks, we built ConServe, an LLM serving system that contains (1) an execution engine that preempts running offline tasks upon the arrival of online tasks, (2) an incremental checkpointing mechanism that minimizes the amount of recomputation required by preemptions, and (3) a scheduler that adaptively batches offline tasks for higher GPU utilization. Our evaluation demonstrates that ConServe achieves strong performance isolation when co-serving online and offline tasks but at a much higher GPU utilization. When colocating practical online and offline workloads on popular models such as Llama-2-7B, ConServe achieves 2.35$\times$ higher throughput than state-of-the-art online serving systems and reduces serving latency by 84$\times$ compared to existing co-serving systems.
- Abstract(参考訳): 多くのアプリケーションは複雑なタスクに大規模言語モデル(LLM)を活用しており、一般的にチャットボットのようなインタラクティブなオンラインジョブに低い推論レイテンシと高いサービススループットを要求する。
しかし、レイテンシの厳しい要求とアプリケーションの負荷分散は、高いGPU利用を達成するためのシステム提供に困難をもたらす。
スケジューリングとプリエンプションのコストが高いため、今日のシステムは一般的に、オンラインとオフラインの推論タスクに別々のクラスタを使用し、干渉を避けるためにオンラインの推論にGPUを集中する。
このアプローチは、平均負荷が低い場合でも、ピーク期待負荷に対して十分なGPUリソースを予約する必要があるため、未使用のGPUにつながる。
本稿では,文書要約やLLMベンチマークなどのオフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。
オンライン推論とは異なり、これらのタスクは通常、緩やかなレイテンシ要件でバッチ処理で実行される。
オンラインタスクに干渉することなく、安全で効率的なGPU収穫を可能にするために、オンラインタスクの到着時にオフラインタスクの実行をプリエンプトする実行エンジンであるConServeと、プリエンプションで必要となる再計算の量を最小化するインクリメンタルチェックポイント機構と、GPU利用率を高めるためにオフラインタスクを適応的にバッチするスケジューラを含むLLMサービスシステムを構築した。
評価の結果,ConServeは,オンラインタスクとオフラインタスクの共用時に高いパフォーマンスを達成できるが,GPU利用率が向上していることがわかった。
Llama-2-7Bのような一般的なモデル上で、実用的なオンラインおよびオフラインのワークロードをコロケーションする場合、ConServeは、最先端のオンラインサービスシステムよりも2.35$\times$高いスループットを達成し、既存の共同サービスシステムと比較してレイテンシーを84$\times$に削減する。
関連論文リスト
- Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity [27.87327662815485]
大規模言語モデル(LLM)はますます多くのオンラインサービスに統合されているが、デプロイにはコストがかかる。
我々は,所与のLLMサービスに対して,最小コストのGPUアロケーションを自動かつ効率的に導出するフレームワークであるM'elangeを紹介する。
M'elangeは、会話設定で最大77%、ドキュメントベースの設定で33%、混合設定で51%のデプロイメントコストを削減する。
論文 参考訳(メタデータ) (2024-04-22T18:56:18Z) - Compass: A Decentralized Scheduler for Latency-Sensitive ML Workflows [0.792324422300924]
我々は、GPU対応のワーカが協調して複雑なクエリを実行する分散システムにおけるMLクエリ処理について検討する。
このようなシステムでは、GPUメモリ管理とタスク配置の共スケジューリングが有望な機会である。
資源を効率的に利用しながら、仕事の遅延を軽減するためにこれらの機能を統一する新しいフレームワークであるCompassを提案する。
論文 参考訳(メタデータ) (2024-02-27T16:21:28Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - SpotServe: Serving Generative Large Language Models on Preemptible
Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。
SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4~9.1倍削減できることを示す。
また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文 参考訳(メタデータ) (2023-11-27T06:31:17Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - A GPU-specialized Inference Parameter Server for Large-Scale Deep
Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。
ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。
従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文 参考訳(メタデータ) (2022-10-17T07:36:18Z) - GPU-Accelerated Machine Learning in Non-Orthogonal Multiple Access [71.58925117604039]
非直交多重アクセス(Noma)は、将来の5Gおよび6Gネットワークに必要な大規模な接続を可能にする興味深い技術である。
線形処理と非線形処理の両方の利点を組み合わせたニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-13T09:38:23Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。