論文の概要: Revisiting Disaggregated Large Language Model Serving for Performance and Energy Implications
- arxiv url: http://arxiv.org/abs/2601.08833v1
- Date: Fri, 14 Nov 2025 06:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.649549
- Title: Revisiting Disaggregated Large Language Model Serving for Performance and Energy Implications
- Title(参考訳): パフォーマンスとエネルギを考慮した非集約型大規模言語モデルの再検討
- Authors: Jiaxi Li, Yue Zhu, Eun Kyung Lee, Klara Nahrstedt,
- Abstract要約: 我々は、異なるKV転送媒体と最適化戦略の下で、プリフィル・デコードデアグリゲーションを再評価する。
以上の結果から,プリフィル・デコード・デアグリゲーションによる性能向上は保証されず,要求負荷やKV転送媒体に依存することが明らかとなった。
- 参考スコア(独自算出の注目度): 5.28675741509738
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Different from traditional Large Language Model (LLM) serving that colocates the prefill and decode stages on the same GPU, disaggregated serving dedicates distinct GPUs to prefill and decode workload. Once the prefill GPU completes its task, the KV cache must be transferred to the decode GPU. While existing works have proposed various KV cache transfer paths across different memory and storage tiers, there remains a lack of systematic benchmarking that compares their performance and energy efficiency. Meanwhile, although optimization techniques such as KV cache reuse and frequency scaling have been utilized for disaggregated serving, their performance and energy implications have not been rigorously benchmarked. In this paper, we fill this research gap by re-evaluating prefill-decode disaggregation under different KV transfer mediums and optimization strategies. Specifically, we include a new colocated serving baseline and evaluate disaggregated setups under different KV cache transfer paths. Through GPU profiling using dynamic voltage and frequency scaling (DVFS), we identify and compare the performance-energy Pareto frontiers across all setups to evaluate the potential energy savings enabled by disaggregation. Our results show that performance benefits from prefill-decode disaggregation are not guaranteed and depend on the request load and KV transfer mediums. In addition, stage-wise independent frequency scaling enabled by disaggregation does not lead to energy saving due to inherently higher energy consumption of disaggregated serving.
- Abstract(参考訳): 従来のLarge Language Model(LLM)と異なり、同じGPU上のプリフィルとデコードステージを共用する。
プリフィルGPUがそのタスクを完了すると、KVキャッシュはデコードGPUに転送されなければならない。
既存の作業では、さまざまなメモリ層とストレージ層にまたがるさまざまなKVキャッシュ転送パスが提案されているが、パフォーマンスとエネルギー効率を比較するための体系的なベンチマークはいまだに存在しない。
一方、KVキャッシュの再利用や周波数スケーリングといった最適化手法は分散サービスに利用されてきたが、その性能とエネルギーへの影響は厳密なベンチマークでは評価されていない。
本稿では,異なるKV転送媒体と最適化戦略の下で,プリフィル・デコード・デコード・デアグリゲーションを再評価することにより,この研究ギャップを埋める。
具体的には、新しいコロケーションサービスベースラインを含み、異なるKVキャッシュ転送パスの下で分散セットアップを評価する。
動的電圧および周波数スケーリング(DVFS)を用いたGPUプロファイリングにより、全ての設定において性能エネルギーのパレートフロンティアを特定し比較し、デアグリゲーションによって可能となる潜在的な省エネ効果を評価する。
以上の結果から,プリフィル・デコード・デアグリゲーションによる性能向上は保証されず,要求負荷やKV転送媒体に依存することが明らかとなった。
さらに、分解によって実現される段階的に独立した周波数スケーリングは、分解されたサーブのエネルギー消費が本質的に高いため、省エネには至らない。
関連論文リスト
- Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - KVShare: An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse [17.301289617498448]
マルチテナントシナリオ下で要求間でKVキャッシュを共有するKVキャッシュ管理モジュールを提案する。
KVShareはTTFTを最大9.39倍に削減し、完全なKV再計算に比べてスループットを1.2倍に向上させる。
KVShareはSOTA法に比べて精度が20.38%向上している。
論文 参考訳(メタデータ) (2025-03-17T16:43:35Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。