Fugu-MT 論文翻訳(概要): Nexus: Taming Throughput-Latency Tradeoff in LLM Serving via Efficient GPU Sharing

論文の概要: Nexus: Taming Throughput-Latency Tradeoff in LLM Serving via Efficient GPU Sharing

arxiv url: http://arxiv.org/abs/2507.06608v2
Date: Thu, 10 Jul 2025 15:48:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-11 12:24:00.092221
Title: Nexus: Taming Throughput-Latency Tradeoff in LLM Serving via Efficient GPU Sharing
Title（参考訳）: Nexus: 効率的なGPU共有によるLCMサービングにおけるスループット-レイテンシトレードオフの処理
Authors: Xiaoxiang Shi, Colin Cai, Junjia Du, Zhanda Zhu, Zhihao Jia,
Abstract要約: 現在のプリフィル・デコード(PD)ディスアグリゲーションは典型的にはサーブエンジン全体のレベルに展開される。 Chunked Prefillは、プリフィルとデコードリクエストを同じバッチ内で混合するが、プリフィルとデコードの間のフェーズ干渉を導入する。チャンクされたプリフィルリクエストは、GPUリソースの要求が異なるため、デコードリクエストに干渉することを示した。この洞察により、単一のGPUのリソースを分割し、それらを動的に割り当てて、オンザフライでプリフィルとデコードすることが可能になります。
参考スコア（独自算出の注目度）: 5.51289813173202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current prefill-decode (PD) disaggregation is typically deployed at the level of entire serving engines, assigning separate GPUs to handle prefill and decode phases. While effective at reducing latency, this approach demands more hardware. To improve GPU utilization, Chunked Prefill mixes prefill and decode requests within the same batch, but introduces phase interference between prefill and decode. While existing PD disaggregation solutions separate the phases across GPUs, we ask: can the same decoupling be achieved within a single serving engine? The key challenge lies in managing the conflicting resource requirements of prefill and decode when they share the same hardware. In this paper, we first show that chunked prefill requests cause interference with decode requests due to their distinct requirements for GPU resources. Second, we find that GPU resources exhibit diminishing returns. Beyond a saturation point, increasing GPU allocation yields negligible latency improvements. This insight enables us to split a single GPU's resources and dynamically allocate them to prefill and decode on the fly, effectively disaggregating the two phases within the same GPU. Across a range of models and workloads, our system Nexus achieves up to 2.2x higher throughput, 20x lower TTFT, and 2.5x lower TBT than vLLM. It also outperforms SGLang with up to 2x higher throughput, 2x lower TTFT, and 1.7x lower TBT, and achieves 1.4x higher throughput than vLLM-disaggregation using only half the number of GPUs.
Abstract（参考訳）: 現在のプリフィル・デコード(PD)のデアグリゲーションは通常、サーブエンジン全体のレベルにデプロイされ、プリフィルとデコードフェーズを処理するために別々のGPUを割り当てる。レイテンシの削減には効果があるが、このアプローチはより多くのハードウェアを必要とする。 GPU利用を改善するため、Chunked Prefillは、プリフィルとデコードリクエストを同じバッチ内で混合するが、プリフィルとデコードの間のフェーズ干渉を導入する。既存のPDディスアグリゲーションソリューションはGPU間でフェーズを分離していますが、私たちは次のように尋ねています。重要な課題は、同じハードウェアを共有する際に、プリフィルとデコードという競合するリソース要件を管理することだ。本稿では,チャンクプレフィル要求がGPUリソースの要求が異なるため,デコード要求に干渉することを示す。次に、GPUリソースのリターンが低下していることが分かる。飽和点を超えたGPU割り当ての増加は、無視できるレイテンシの改善をもたらす。この洞察により、1つのGPUのリソースを分割し、それらを動的にプリフィルし、オンザフライでデコードし、同じGPU内で2つのフェーズを効果的に分離することができる。さまざまなモデルやワークロードに対して,システムNexusは最大2.2倍,TTFTは20倍,TBTはvLLMより2.5倍のスループットを実現しています。また、最大2倍のスループット、2倍のTTFT、1.7倍のTBTでSGLangを上回り、GPUの半数しか使用せず、vLLM分解よりも1.4倍のスループットを実現している。

関連論文リスト

Hardware-Efficient Attention for Fast Decoding [13.958883001629644]
Grouped Latent Attention (GLA) は、高速復号化のための低レベル最適化と組み合わせた並列対応の潜時注意法である。最適化されたGLAカーネルは、例えば投機的デコード設定で、FlashMLAよりも最大2$times$高速です。
論文参考訳（メタデータ） (2025-05-27T17:54:07Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T05:00:39Z)
SpecOffload: Unlocking Latent GPU Capacity for LLM Inference on Resource-Constrained Devices [16.407669822378487]
SpecOffloadは投機的デコーディングをオフロードに埋め込む。最高のベースラインと比較して、SpecOffloadはGPUコアの利用率を4.49倍改善し、推論スループットを2.54倍向上させた。
論文参考訳（メタデータ） (2025-05-15T13:10:31Z)
ZO2: Scalable Zeroth-Order Fine-Tuning for Extremely Large Language Models with Limited GPU Memory [29.245719403159615]
限られたGPUメモリしか持たないLLMの高効率ゼロオーダー微調整のための新しいフレームワークZO2を提案する。我々のフレームワークは、CPUとGPU間のデータ交換を合理化するAMPモードにおける革新的な低ビット精度アプローチをサポートしている。
論文参考訳（メタデータ） (2025-03-16T21:58:29Z)
POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。 POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文参考訳（メタデータ） (2024-10-23T17:06:56Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。 1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文参考訳（メタデータ） (2023-03-13T05:19:28Z)
Heterogeneous Acceleration Pipeline for Recommendation System Training [1.8457649813040096]
レコメンデーションモデルは、ディープラーニングネットワークと大規模な埋め込みテーブルに依存している。これらのモデルは一般的に、ハイブリッドGPUまたはGPUのみの設定を使用してトレーニングされる。本稿ではヘテロジニアスなCPUアクセラレーションパイプラインであるHotlineを紹介する。
論文参考訳（メタデータ） (2022-04-11T23:10:41Z)
PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文参考訳（メタデータ） (2022-02-27T23:30:55Z)
PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 PLSSVMはLVMのドロップイン代替として使用できる。
論文参考訳（メタデータ） (2022-02-25T13:24:23Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Nimble: Lightweight and Parallel GPU Task Scheduling for Deep Learning [7.43260596107574]
我々は、最小のスケジューリングオーバーヘッドでタスクを並列に実行する、ディープラーニング(DL)実行エンジンであるNimbleを提案する。 Nableは、単一のGPUで複数のGPUストリームを活用することで、GPUタスクの実行を自動的に並列化する。 PyTorchと比較して、Nimbleは推論とトレーニングを最大22.34$times$と3.61$times$で高速化している。
論文参考訳（メタデータ） (2020-12-04T17:25:46Z)
GPU-Accelerated Primal Learning for Extremely Fast Large-Scale Classification [10.66048003460524]
ロジスティック回帰や線形サポートベクターマシン(SVM)分類などのL2正規化原始問題を解く最も効率的な方法の1つは、広く使われている信頼領域ニュートンアルゴリズムであるTRONである。我々は、GPU最適化の法則を用いて、異なる損失と特徴表現に対するTRONトレーニング時間を劇的に短縮できることを示した。
論文参考訳（メタデータ） (2020-08-08T03:40:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。