論文の概要: Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2503.24000v1
- Date: Mon, 31 Mar 2025 12:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:56.551773
- Title: Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving
- Title(参考訳): 大規模言語モデルにおけるキーバリューキャッシュ圧縮手法の再考
- Authors: Wei Gao, Xinyu Zhou, Peng Sun, Tianwei Zhang, Yonggang Wen,
- Abstract要約: キーバリューキャッシュ(textttKV texttcache)圧縮は、LLM(Large Language Model)サービスを最適化するための有望なテクニックとして登場した。
主にtextttKV textttcache のメモリ消費を削減し、計算コストを削減する。
多くの圧縮アルゴリズムが開発されているが、本番環境での応用はまだ一般的ではない。
- 参考スコア(独自算出の注目度): 23.2180736755494
- License:
- Abstract: Key-Value cache (\texttt{KV} \texttt{cache}) compression has emerged as a promising technique to optimize Large Language Model (LLM) serving. It primarily decreases the memory consumption of \texttt{KV} \texttt{cache} to reduce the computation cost. Despite the development of many compression algorithms, their applications in production environments are still not prevalent. In this paper, we revisit mainstream \texttt{KV} \texttt{cache} compression solutions from a practical perspective. Our contributions are three-fold. First, we comprehensively review existing algorithmic designs and benchmark studies for \texttt{KV} \texttt{cache} compression and identify missing pieces in their performance measurement, which could hinder their adoption in practice. Second, we empirically evaluate representative \texttt{KV} \texttt{cache} compression methods to uncover two key issues that affect the computational efficiency: (1) while compressing \texttt{KV} \texttt{cache} can reduce memory consumption, current implementations (e.g., FlashAttention, PagedAttention) do not optimize for production-level LLM serving, resulting in suboptimal throughput performance; (2) compressing \texttt{KV} \texttt{cache} may lead to longer outputs, resulting in increased end-to-end latency. We further investigate the accuracy performance of individual samples rather than the overall performance, revealing the intrinsic limitations in \texttt{KV} \texttt{cache} compression when handling specific LLM tasks. Third, we provide tools to shed light on future \texttt{KV} \texttt{cache} compression studies and facilitate their practical deployment in production. They are open-sourced in \href{https://github.com/LLMkvsys/rethink-kv-compression}{https://github.com/LLMkvsys/rethink-kv-compression}.
- Abstract(参考訳): キーバリューキャッシュ(\texttt{KV} \texttt{cache})圧縮は、LLM(Large Language Model)サービスを最適化するための有望なテクニックとして登場した。
これは計算コストを削減するために、主に \texttt{KV} \texttt{cache} のメモリ消費を減少させる。
多くの圧縮アルゴリズムが開発されているが、本番環境での応用はまだ一般的ではない。
本稿では,本研究の実践的観点から,主流のtexttt{KV} \texttt{cache} 圧縮ソリューションを再考する。
私たちの貢献は3倍です。
まず,<texttt{KV} \texttt{cache} 圧縮のための既存のアルゴリズム設計とベンチマーク研究を網羅的にレビューし,その性能測定における欠落点を同定し,実際に採用することを妨げる可能性がある。
第2に, 代表的 \texttt{KV} \texttt{cache} 圧縮手法を実証的に評価し, 計算効率に影響を与える2つの主要な問題を明らかにする。(1) 圧縮された \texttt{KV} \texttt{cache} はメモリ消費を削減できるが, 現在の実装(例: FlashAttention, PagedAttention) は生産レベルの LLM サービスに最適化されないため, 最適スループット性能が低下し, (2) 圧縮された \texttt{KV} \texttt{cache} は出力が長くなり, エンドツーエンドのレイテンシが増大する。
さらに,特定のLLMタスクの処理において,各サンプルの精度について検討し,内在的制約を明らかにした。
第3に,将来的な texttt{KV} \texttt{cache} 圧縮研究に光を当てるツールを提供し,本番環境における実用的展開を容易にする。
オープンソースは \href{https://github.com/LLMkvsys/rethink-kv-compression}{https://github.com/LLMkvsys/rethink-kv-compression} である。
関連論文リスト
- ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [24.48498639513474]
基本圧縮単位としてチャンク内のトークンをグループ化してチャンクKVを導入する。
ChunkKVは異なる層にまたがって保存された指標に高い類似性を示す。
我々は,LongBench や Needle-In-A-HayStack,GSM8K や JailbreakV など,最先端の長文ベンチマークに対する ChunkKV の評価を行った。
論文 参考訳(メタデータ) (2025-02-01T03:49:47Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。
実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。
我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文 参考訳(メタデータ) (2024-10-24T08:06:41Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Hyper-Compression: Model Compression via Hyperfunction [20.47369296713829]
本稿では,遺伝子型と表現型との相同性に着想を得た,いわゆるハイパー圧縮を提案する。
LLaMA2-7Bを1時間で圧縮し、再トレーニングすることなく、近距離から近距離までの量子化性能を達成する。
我々の研究は、スケーリング法則とハードウェアアップグレードの停滞の間の調和を促進することができる。
論文 参考訳(メタデータ) (2024-09-01T02:57:41Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - PyramidInfer: Pyramid KV Cache Compression for High-throughput LLM Inference [57.53291046180288]
大規模言語モデル(LLM)は、目覚ましい理解能力を示しているが、推論中のGPUメモリ使用の課題に直面している。
本稿では,KVキャッシュを重要なコンテキストを階層的に保持することで圧縮するPraamidInferを提案する。
PyramidInferは、KVキャッシュで54%以上のGPUメモリを削減したAccelerateと比較して、2.2倍のスループットを改善している。
論文 参考訳(メタデータ) (2024-05-21T06:46:37Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。