論文の概要: FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling
- arxiv url: http://arxiv.org/abs/2504.03775v1
- Date: Thu, 03 Apr 2025 08:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 08:35:35.436675
- Title: FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling
- Title(参考訳): FlowKV: 低レイテンシKVキャッシュ転送とロードアウェアスケジューリングを備えた分散推論フレームワーク
- Authors: Weiqing Li, Guochao Jiang, Xiangyong Ding, Zhangcheng Tao, Chuzhan Hao, Chenfeng Xu, Yuewei Zhang, Hao Wang,
- Abstract要約: Flow KVは非凝集型推論フレームワークである。
これにより、KVキャッシュの平均伝送遅延を0.944sから0.053sに96%削減できる。
これは、通常、計算の不均衡、極端な過負荷条件など、様々なシナリオでピークシステムのスループットを達成する。
- 参考スコア(独自算出の注目度): 10.298476019491146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Disaggregated inference has become an essential framework that separates the prefill (P) and decode (D) stages in large language model inference to improve throughput. However, the KV cache transfer faces significant delays between prefill and decode nodes. The block-wise calling method and discontinuous KV cache memory allocation increase the number of calls to the transmission kernel. Additionally, existing frameworks often fix the roles of P and D nodes, leading to computational imbalances. In this paper, we propose FlowKV, a novel disaggregated inference framework, which reduces the average transmission latency of KV cache by 96%, from 0.944s to 0.053s, almost eliminating the transfer time relative to the total request latency by optimizing the KV cache transfer. FlowKV introduces the Load-Aware Scheduler for balanced request scheduling and flexible PD node allocation. This design maximizes hardware resource utilization, achieving peak system throughput across various scenarios, including normal, computational imbalance, and extreme overload conditions. Experimental results demonstrate that FlowKV significantly accelerates inference by 15.2%-48.9% on LongBench dataset compared to the baseline and supports applications with heterogeneous GPUs.
- Abstract(参考訳): 分散推論は、スループットを向上させるために、大きな言語モデル推論におけるプリフィル(P)とデコード(D)ステージを分離する重要なフレームワークとなっている。
しかし、KVキャッシュ転送はプリフィルノードとデコードノードの間で大きな遅延に直面している。
ブロックワイズ呼び出し方法と不連続なKVキャッシュメモリ割り当ては、送信カーネルへの呼び出し数を増加させる。
加えて、既存のフレームワークは、しばしばPとDのノードの役割を修正し、計算の不均衡を引き起こす。
本稿では,KVキャッシュの平均伝送遅延を0.944sから0.053sに削減し,KVキャッシュ転送を最適化することで,要求待ち時間に対する転送時間をほぼ減らし,分散化推論フレームワークであるFlowKVを提案する。
FlowKVは、バランスの取れた要求スケジューリングと柔軟なPDノード割り当てのためのLoad-Aware Schedulerを導入している。
この設計はハードウェアリソースの利用を最大化し、通常、計算不均衡、過負荷条件を含む様々なシナリオでピークシステムのスループットを達成する。
実験の結果、FlowKVはベースラインと比較してLongBenchデータセットでの推論を15.2%-48.9%高速化し、ヘテロジニアスGPUを用いたアプリケーションをサポートすることがわかった。
関連論文リスト
- DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。
提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - APB: Accelerating Distributed Long-Context Inference by Passing Compressed Context Blocks across GPUs [81.5049387116454]
我々は、効率的な長文推論フレームワークであるAPBを紹介する。
APBはプリフィル速度を高めるためにマルチホスト近似アテンションを使用する。
APBはFlashAttn、RingAttn、StarAttnと比較して最大9.2x、4.2x、1.6xの速度を実現している。
論文 参考訳(メタデータ) (2025-02-17T17:59:56Z) - QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。
これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。
そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文 参考訳(メタデータ) (2025-02-05T20:43:48Z) - HACK: Homomorphic Acceleration via Compression of the Key-Value Cache for Disaggregated LLM Inference [24.068304021577358]
Disaggregated Large Language Model (LLM) 推論は、計算集約型プリフィルステージとメモリ集約型デコードステージを分離する。
キーバリュー(KV)データを2つのステージ間で送信することは、特に長いプロンプトにおいてボトルネックとなる可能性がある。
分散LDM推論のためのKVキャッシュ(HACK)の圧縮によるホモモルフィック高速化を提案する。
論文 参考訳(メタデータ) (2025-02-05T20:09:51Z) - KVDirect: Distributed Disaggregated LLM Inference [6.609725967999848]
大規模言語モデル(LLM)は多くの応用の新たな基盤となり、嵐のように人間の社会を形作る。
プリフィルとデコードステージを分離する分散推論は、ハードウェア利用とサービス品質を改善するための有望なアプローチである。
本稿ではKVキャッシュ転送を最適化したKVDirectを導入し,分散分散分散分散化LLM推論を実現する。
論文 参考訳(メタデータ) (2024-12-13T21:54:16Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management [23.431794605498084]
ハードウェアの追加や出力性能の向上を必要とせずにTTFTを効果的に削減する,シンプルで効果的なプラグイン手法であるLayer KVを提案する。
レイヤKVは、システムメモリのきめ細かい制御のために、レイヤワイズなKVブロック割り当て、管理、オフロードを導入します。
様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、Layer KVがTTFTレイテンシを69倍に改善し、SLO違反率を28.7%削減することを示した。
論文 参考訳(メタデータ) (2024-10-01T06:23:17Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。