論文の概要: Nexus: Taming Throughput-Latency Tradeoff in LLM Serving via Efficient GPU Sharing
- arxiv url: http://arxiv.org/abs/2507.06608v2
- Date: Thu, 10 Jul 2025 15:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.092221
- Title: Nexus: Taming Throughput-Latency Tradeoff in LLM Serving via Efficient GPU Sharing
- Title(参考訳): Nexus: 効率的なGPU共有によるLCMサービングにおけるスループット-レイテンシトレードオフの処理
- Authors: Xiaoxiang Shi, Colin Cai, Junjia Du, Zhanda Zhu, Zhihao Jia,
- Abstract要約: 現在のプリフィル・デコード(PD)ディスアグリゲーションは典型的にはサーブエンジン全体のレベルに展開される。
Chunked Prefillは、プリフィルとデコードリクエストを同じバッチ内で混合するが、プリフィルとデコードの間のフェーズ干渉を導入する。
チャンクされたプリフィルリクエストは、GPUリソースの要求が異なるため、デコードリクエストに干渉することを示した。
この洞察により、単一のGPUのリソースを分割し、それらを動的に割り当てて、オンザフライでプリフィルとデコードすることが可能になります。
- 参考スコア(独自算出の注目度): 5.51289813173202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current prefill-decode (PD) disaggregation is typically deployed at the level of entire serving engines, assigning separate GPUs to handle prefill and decode phases. While effective at reducing latency, this approach demands more hardware. To improve GPU utilization, Chunked Prefill mixes prefill and decode requests within the same batch, but introduces phase interference between prefill and decode. While existing PD disaggregation solutions separate the phases across GPUs, we ask: can the same decoupling be achieved within a single serving engine? The key challenge lies in managing the conflicting resource requirements of prefill and decode when they share the same hardware. In this paper, we first show that chunked prefill requests cause interference with decode requests due to their distinct requirements for GPU resources. Second, we find that GPU resources exhibit diminishing returns. Beyond a saturation point, increasing GPU allocation yields negligible latency improvements. This insight enables us to split a single GPU's resources and dynamically allocate them to prefill and decode on the fly, effectively disaggregating the two phases within the same GPU. Across a range of models and workloads, our system Nexus achieves up to 2.2x higher throughput, 20x lower TTFT, and 2.5x lower TBT than vLLM. It also outperforms SGLang with up to 2x higher throughput, 2x lower TTFT, and 1.7x lower TBT, and achieves 1.4x higher throughput than vLLM-disaggregation using only half the number of GPUs.
- Abstract(参考訳): 現在のプリフィル・デコード(PD)のデアグリゲーションは通常、サーブエンジン全体のレベルにデプロイされ、プリフィルとデコードフェーズを処理するために別々のGPUを割り当てる。
レイテンシの削減には効果があるが、このアプローチはより多くのハードウェアを必要とする。
GPU利用を改善するため、Chunked Prefillは、プリフィルとデコードリクエストを同じバッチ内で混合するが、プリフィルとデコードの間のフェーズ干渉を導入する。
既存のPDディスアグリゲーションソリューションはGPU間でフェーズを分離していますが、私たちは次のように尋ねています。
重要な課題は、同じハードウェアを共有する際に、プリフィルとデコードという競合するリソース要件を管理することだ。
本稿では,チャンクプレフィル要求がGPUリソースの要求が異なるため,デコード要求に干渉することを示す。
次に、GPUリソースのリターンが低下していることが分かる。
飽和点を超えたGPU割り当ての増加は、無視できるレイテンシの改善をもたらす。
この洞察により、1つのGPUのリソースを分割し、それらを動的にプリフィルし、オンザフライでデコードし、同じGPU内で2つのフェーズを効果的に分離することができる。
さまざまなモデルやワークロードに対して,システムNexusは最大2.2倍,TTFTは20倍,TBTはvLLMより2.5倍のスループットを実現しています。
また、最大2倍のスループット、2倍のTTFT、1.7倍のTBTでSGLangを上回り、GPUの半数しか使用せず、vLLM分解よりも1.4倍のスループットを実現している。
関連論文リスト
- Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。
我々はDualParalと呼ばれる新しい分散推論戦略を提案する。
1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文 参考訳(メタデータ) (2025-05-27T11:55:22Z) - SpecOffload: Unlocking Latent GPU Capacity for LLM Inference on Resource-Constrained Devices [16.407669822378487]
SpecOffloadは投機的デコーディングをオフロードに埋め込む。
最高のベースラインと比較して、SpecOffloadはGPUコアの利用率を4.49倍改善し、推論スループットを2.54倍向上させた。
論文 参考訳(メタデータ) (2025-05-15T13:10:31Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - Heterogeneous Acceleration Pipeline for Recommendation System Training [1.8457649813040096]
レコメンデーションモデルは、ディープラーニングネットワークと大規模な埋め込みテーブルに依存している。
これらのモデルは一般的に、ハイブリッドGPUまたはGPUのみの設定を使用してトレーニングされる。
本稿ではヘテロジニアスなCPUアクセラレーションパイプラインであるHotlineを紹介する。
論文 参考訳(メタデータ) (2022-04-11T23:10:41Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z) - Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning [7.43260596107574]
我々は、最小のスケジューリングオーバーヘッドでタスクを並列に実行する、ディープラーニング(DL)実行エンジンであるNimbleを提案する。
Nableは、単一のGPUで複数のGPUストリームを活用することで、GPUタスクの実行を自動的に並列化する。
PyTorchと比較して、Nimbleは推論とトレーニングを最大22.34$times$と3.61$times$で高速化している。
論文 参考訳(メタデータ) (2020-12-04T17:25:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。