Fugu-MT 論文翻訳(概要): ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving

論文の概要: ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving

arxiv url: http://arxiv.org/abs/2410.01228v1
Date: Wed, 2 Oct 2024 04:12:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-04 22:18:46.978909
Title: ConServe: Harvesting GPUs for Low-Latency and High-Throughput Large Language Model Serving
Title（参考訳）: ConServe: 低レイテンシと高スループット大言語モデルのハーベスティングGPU
Authors: Yifan Qiao, Shu Anzai, Shan Yu, Haoran Ma, Yang Wang, Miryung Kim, Harry Xu,
Abstract要約: 本稿では,オフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。我々は、オフラインタスクの実行をプリエンプトする実行エンジンを含むLLMサービスシステムであるConServeを構築した。オンラインタスクとオフラインタスクの協調作業において,ConServeが強力なパフォーマンス分離を実現することを示す。
参考スコア（独自算出の注目度）: 15.01982917560918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many applications are leveraging large language models (LLMs) for complex tasks, and they generally demand low inference latency and high serving throughput for interactive online jobs such as chatbots. However, the tight latency requirement and high load variance of applications pose challenges to serving systems in achieving high GPU utilization. Due to the high costs of scheduling and preemption, today's systems generally use separate clusters to serve online and offline inference tasks, and dedicate GPUs for online inferences to avoid interference. This approach leads to underutilized GPUs because one must reserve enough GPU resources for the peak expected load, even if the average load is low. This paper proposes to harvest stranded GPU resources for offline LLM inference tasks such as document summarization and LLM benchmarking. Unlike online inferences, these tasks usually run in a batch-processing manner with loose latency requirements, making them a good fit for stranded resources that are only available shortly. To enable safe and efficient GPU harvesting without interfering with online tasks, we built ConServe, an LLM serving system that contains (1) an execution engine that preempts running offline tasks upon the arrival of online tasks, (2) an incremental checkpointing mechanism that minimizes the amount of recomputation required by preemptions, and (3) a scheduler that adaptively batches offline tasks for higher GPU utilization. Our evaluation demonstrates that ConServe achieves strong performance isolation when co-serving online and offline tasks but at a much higher GPU utilization. When colocating practical online and offline workloads on popular models such as Llama-2-7B, ConServe achieves 2.35$\times$ higher throughput than state-of-the-art online serving systems and reduces serving latency by 84$\times$ compared to existing co-serving systems.
Abstract（参考訳）: 多くのアプリケーションは複雑なタスクに大規模言語モデル(LLM)を活用しており、一般的にチャットボットのようなインタラクティブなオンラインジョブに低い推論レイテンシと高いサービススループットを要求する。しかし、レイテンシの厳しい要求とアプリケーションの負荷分散は、高いGPU利用を達成するためのシステム提供に困難をもたらす。スケジューリングとプリエンプションのコストが高いため、今日のシステムは一般的に、オンラインとオフラインの推論タスクに別々のクラスタを使用し、干渉を避けるためにオンラインの推論にGPUを集中する。このアプローチは、平均負荷が低い場合でも、ピーク期待負荷に対して十分なGPUリソースを予約する必要があるため、未使用のGPUにつながる。本稿では,文書要約やLLMベンチマークなどのオフラインLLM推論タスクのためのストランドGPUリソースの抽出を提案する。オンライン推論とは異なり、これらのタスクは通常、緩やかなレイテンシ要件でバッチ処理で実行される。オンラインタスクに干渉することなく、安全で効率的なGPU収穫を可能にするために、オンラインタスクの到着時にオフラインタスクの実行をプリエンプトする実行エンジンであるConServeと、プリエンプションで必要となる再計算の量を最小化するインクリメンタルチェックポイント機構と、GPU利用率を高めるためにオフラインタスクを適応的にバッチするスケジューラを含むLLMサービスシステムを構築した。評価の結果,ConServeは,オンラインタスクとオフラインタスクの共用時に高いパフォーマンスを達成できるが,GPU利用率が向上していることがわかった。 Llama-2-7Bのような一般的なモデル上で、実用的なオンラインおよびオフラインのワークロードをコロケーションする場合、ConServeは、最先端のオンラインサービスシステムよりも2.35$\times$高いスループットを達成し、既存の共同サービスシステムと比較してレイテンシーを84$\times$に削減する。

関連論文リスト

Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。 PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文参考訳（メタデータ） (2025-07-09T07:27:18Z)
HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location [3.348953136575379]
HyGenは、オンラインおよびオフラインワークロードの効率的なコロケーションを可能にする干渉対応LLMサービスシステムである。運用負荷評価の結果,HyGenのスループットは最大3.87倍,オフラインスループットは5.84倍に向上した。
論文参考訳（メタデータ） (2025-01-15T16:32:27Z)
MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。 MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。 MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文参考訳（メタデータ） (2024-11-18T01:06:12Z)
FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
Exploiting Student Parallelism for Efficient GPU Inference of BERT-like Models in Online Services [27.998951498347626]
我々は,オンラインワークロード上でのGPU推論の現実的な設定について,sysを提示する。サイスは、積み重ね蒸留とアンサンブルの強化を採用し、オリジナルの深層モデルを浅いが事実上積み重ねられた学生モデルのグループに蒸留する。その結果、sysのベースラインは4.1timessim 1.6times$で精度を保ち、ワークロードバーストに対して最大22.27times$でパフォーマンスが向上した。
論文参考訳（メタデータ） (2024-08-22T16:31:32Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
A Real-Time Adaptive Multi-Stream GPU System for Online Approximate Nearest Neighborhood Search [3.116913746878115]
RTAMS-GANNS(Real-Time Adaptive Multi-Stream GPU ANNS System)を提案する。私たちのアーキテクチャはその目的を3つの重要な進歩を通して達成します。提案システムは実世界の産業検索やレコメンデーションシステムにも展開されており、毎日数億人のユーザーにサービスを提供している。
論文参考訳（メタデータ） (2024-08-06T03:44:06Z)
RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文参考訳（メタデータ） (2024-02-22T18:58:28Z)
SpotServe: Serving Generative Large Language Models on Preemptible Instances [64.18638174004151]
SpotServeは、プリエンプティブルインスタンスにシステムを提供する最初の分散大規模言語モデルである。 SpotServeは、既存のLLMサービスシステムと比較して、P99テールのレイテンシを2.4～9.1倍削減できることを示す。また、SpotServeはプリエンプティブインスタンスの価格優位性を利用して、オンデマンドインスタンスのみを使用する場合と比較して54%の金銭的コストを節約できることも示しています。
論文参考訳（メタデータ） (2023-11-27T06:31:17Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
A GPU-specialized Inference Parameter Server for Large-Scale Deep Recommendation Models [6.823233135936128]
推薦システムは、ニュースフィード、ソーシャルネットワーク、eコマース、検索など、様々なモダンなアプリやWebサービスにとって不可欠である。ピーク予測精度を達成するため、現代のレコメンデーションモデルは、ディープラーニングとテラバイト規模の埋め込みテーブルを組み合わせることで、基礎となるデータのきめ細かい表現を得る。従来の推論サービスアーキテクチャでは、モデル全体をスタンドアロンのサーバにデプロイする必要があります。
論文参考訳（メタデータ） (2022-10-17T07:36:18Z)
GPU-Accelerated Machine Learning in Non-Orthogonal Multiple Access [71.58925117604039]
非直交多重アクセス(Noma)は、将来の5Gおよび6Gネットワークに必要な大規模な接続を可能にする興味深い技術である。線形処理と非線形処理の両方の利点を組み合わせたニューラルネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-06-13T09:38:23Z)
Multi-model Machine Learning Inference Serving with GPU Spatial Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文参考訳（メタデータ） (2021-09-01T04:46:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。