論文の概要: Revisiting Disaggregated Large Language Model Serving for Performance and Energy Implications
- arxiv url: http://arxiv.org/abs/2601.08833v1
- Date: Fri, 14 Nov 2025 06:42:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.649549
- Title: Revisiting Disaggregated Large Language Model Serving for Performance and Energy Implications
- Title(参考訳): パフォーマンスとエネルギを考慮した非集約型大規模言語モデルの再検討
- Authors: Jiaxi Li, Yue Zhu, Eun Kyung Lee, Klara Nahrstedt,
- Abstract要約: 我々は、異なるKV転送媒体と最適化戦略の下で、プリフィル・デコードデアグリゲーションを再評価する。
以上の結果から,プリフィル・デコード・デアグリゲーションによる性能向上は保証されず,要求負荷やKV転送媒体に依存することが明らかとなった。
- 参考スコア(独自算出の注目度): 5.28675741509738
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Different from traditional Large Language Model (LLM) serving that colocates the prefill and decode stages on the same GPU, disaggregated serving dedicates distinct GPUs to prefill and decode workload. Once the prefill GPU completes its task, the KV cache must be transferred to the decode GPU. While existing works have proposed various KV cache transfer paths across different memory and storage tiers, there remains a lack of systematic benchmarking that compares their performance and energy efficiency. Meanwhile, although optimization techniques such as KV cache reuse and frequency scaling have been utilized for disaggregated serving, their performance and energy implications have not been rigorously benchmarked. In this paper, we fill this research gap by re-evaluating prefill-decode disaggregation under different KV transfer mediums and optimization strategies. Specifically, we include a new colocated serving baseline and evaluate disaggregated setups under different KV cache transfer paths. Through GPU profiling using dynamic voltage and frequency scaling (DVFS), we identify and compare the performance-energy Pareto frontiers across all setups to evaluate the potential energy savings enabled by disaggregation. Our results show that performance benefits from prefill-decode disaggregation are not guaranteed and depend on the request load and KV transfer mediums. In addition, stage-wise independent frequency scaling enabled by disaggregation does not lead to energy saving due to inherently higher energy consumption of disaggregated serving.
- Abstract(参考訳): 従来のLarge Language Model(LLM)と異なり、同じGPU上のプリフィルとデコードステージを共用する。
プリフィルGPUがそのタスクを完了すると、KVキャッシュはデコードGPUに転送されなければならない。
既存の作業では、さまざまなメモリ層とストレージ層にまたがるさまざまなKVキャッシュ転送パスが提案されているが、パフォーマンスとエネルギー効率を比較するための体系的なベンチマークはいまだに存在しない。
一方、KVキャッシュの再利用や周波数スケーリングといった最適化手法は分散サービスに利用されてきたが、その性能とエネルギーへの影響は厳密なベンチマークでは評価されていない。
本稿では,異なるKV転送媒体と最適化戦略の下で,プリフィル・デコード・デコード・デアグリゲーションを再評価することにより,この研究ギャップを埋める。
具体的には、新しいコロケーションサービスベースラインを含み、異なるKVキャッシュ転送パスの下で分散セットアップを評価する。
動的電圧および周波数スケーリング(DVFS)を用いたGPUプロファイリングにより、全ての設定において性能エネルギーのパレートフロンティアを特定し比較し、デアグリゲーションによって可能となる潜在的な省エネ効果を評価する。
以上の結果から,プリフィル・デコード・デアグリゲーションによる性能向上は保証されず,要求負荷やKV転送媒体に依存することが明らかとなった。
さらに、分解によって実現される段階的に独立した周波数スケーリングは、分解されたサーブのエネルギー消費が本質的に高いため、省エネには至らない。
関連論文リスト
- DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - PackKV: Reducing KV Cache Memory Footprint through LLM-Aware Lossy Compression [8.427136461713706]
汎用的で効率的なKVキャッシュ管理フレームワークである textbfPackKV を提案する。
PackKVはレイテンシクリティカルとスループットクリティカルの両方の推論シナリオをサポートする。
論文 参考訳(メタデータ) (2025-12-30T20:05:32Z) - CommonKV: Compressing KV Cache with Cross-layer Parameter Sharing [54.34080239841088]
CommonKVは、隣接パラメータ共有による層間KVキャッシュ圧縮のトレーニング不要な方法である。
提案手法は,様々な圧縮比で既存の低ランクおよびクロスレイヤーの手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-22T06:55:45Z) - Nexus:Proactive Intra-GPU Disaggregation of Prefill and Decode in LLM Serving [4.309392302169281]
エンジンレベルのプリフィル・デコード(PD)デアグリゲーションは干渉を避けるが、高いハードウェアと調整オーバーヘッドを引き起こす。
PDは、最大2.2倍のスループット、20倍のTTFT、2.5倍のTBTを達成する。
論文 参考訳(メタデータ) (2025-07-09T07:27:18Z) - KVShare: An LLM Service System with Efficient and Effective Multi-Tenant KV Cache Reuse [17.301289617498448]
マルチテナントシナリオ下で要求間でKVキャッシュを共有するKVキャッシュ管理モジュールを提案する。
KVShareはTTFTを最大9.39倍に削減し、完全なKV再計算に比べてスループットを1.2倍に向上させる。
KVShareはSOTA法に比べて精度が20.38%向上している。
論文 参考訳(メタデータ) (2025-03-17T16:43:35Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - FairKV: Balancing Per-Head KV Cache for Fast Multi-GPU Inference [11.148691507097341]
TransformerモデルにおけるKVキャッシュ技術は、メモリ使用量を大幅に増加させ、冗長な計算を減らすことを目的としている。
近年、最先端のKVキャッシュ圧縮手法では、各アテンションヘッドのKVキャッシュ予算を動的に調整する不均衡なヘッドアロケーションアルゴリズムが実装されている。
本研究では,不均衡なKVキャッシュ圧縮を用いたシステムにおいて,アテンションヘッド間のメモリ使用量を確保するためのFair KVを提案する。
論文 参考訳(メタデータ) (2025-02-19T06:14:27Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [97.41972925670508]
大規模視覚言語モデル(LVLM)は、推論中に重要な計算とメモリオーバーヘッドを引き起こす。
ここでは、PrefixKVについて述べる。ここでは、Prefixは、元のシーケンスの位置ではなく、重要度に基づいて、上位ランクのKVを意味する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - KVPR: Efficient LLM Inference with I/O-Aware KV Cache Partial Recomputation [7.204881999658682]
キーバリューキャッシュは、大きな言語モデルの中間アクティベーションを格納するために使用される。
KVキャッシュに必要なメモリは急速に増加し、しばしばGPUメモリの容量を超える。
既存の方法は、GPU計算をI/Oで重複させたり、CPU-GPUの不均一な実行を採用することで、これらの問題に対処しようとする。
本稿では,CPUが最初にアクティベーションの部分集合を転送する,効率的なI/O対応LPM推論手法であるKVPRを紹介する。
KVPRは、最先端のアプローチと比較して最大で35.8%のレイテンシと46.2%のスループットを実現している。
論文 参考訳(メタデータ) (2024-11-26T04:03:14Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。