論文の概要: Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques
- arxiv url: http://arxiv.org/abs/2503.11816v3
- Date: Tue, 22 Apr 2025 17:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 19:51:40.258829
- Title: Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques
- Title(参考訳): キー,バリュー,圧縮:KVキャッシュ圧縮技術の体系的な探索
- Authors: Neusha Javidnia, Bita Darvish Rouhani, Farinaz Koushanfar,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト、画像、ビデオコンテンツを生成する際、例外的な能力を示した。
文脈長が大きくなるにつれて、トークンの数が増えるにつれて、注意の計算コストは2次的に増加する。
本稿では,キーバリュー(KV)キャッシュ圧縮戦略の解析を行う。
- 参考スコア(独自算出の注目度): 14.69396650781309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional capabilities in generating text, images, and video content. However, as context length grows, the computational cost of attention increases quadratically with the number of tokens, presenting significant efficiency challenges. This paper presents an analysis of various Key-Value (KV) cache compression strategies, offering a comprehensive taxonomy that categorizes these methods by their underlying principles and implementation techniques. Furthermore, we evaluate their impact on performance and inference latency, providing critical insights into their effectiveness. Our findings highlight the trade-offs involved in KV cache compression and its influence on handling long-context scenarios, paving the way for more efficient LLM implementations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト、画像、ビデオコンテンツを生成する際、例外的な能力を示した。
しかし、文脈の長さが長くなるにつれて、トークンの数とともに注意の計算コストが2次的に増加し、大きな効率上の課題が浮かび上がる。
本稿では,キーバリュー(KV)キャッシュ圧縮戦略の解析を行い,これらの手法を基本原理と実装手法によって分類する包括的分類法を提案する。
さらに、パフォーマンスと推論遅延への影響を評価し、その効果について重要な洞察を提供する。
以上の結果から,KVキャッシュ圧縮に関わるトレードオフと,その長期コンテキストシナリオ処理への影響が注目され,より効率的なLLM実装への道が開かれた。
関連論文リスト
- PIS: Linking Importance Sampling and Attention Mechanisms for Efficient Prompt Compression [3.6268731121741067]
大規模言語モデル(LLM)は目覚ましい進歩を遂げ、様々な自然言語処理タスクにまたがる前例のない能力を示している。
既存のプロンプト圧縮法は、トラルニケーションや抽象的な要約技術に依存している。
本稿では,重要なトークンをサンプリングすることによってプロンプトを動的に圧縮する新しい圧縮フレームワークであるPrompt Importance Smpling(PIS)を紹介する。
論文 参考訳(メタデータ) (2025-04-23T09:53:01Z) - AirCache: Activating Inter-modal Relevancy KV Cache Compression for Efficient Large Vision-Language Model Inference [11.73134417321505]
本稿では,LVLM推論の高速化を目的とした新しいKVキャッシュ圧縮手法であるAirCacheを提案する。
本手法は,視覚的KVキャッシュの10%を保ちながら,フルキャッシュに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-03-31T11:13:18Z) - KVShare: Semantic-Aware Key-Value Cache Sharing for Efficient Large Language Model Inference [7.894452711850396]
KVShareは、セマンティックな類似性に基づくマルチユーザキーバリュー(KV)キャッシュ共有技術である。
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)の推論効率を向上させるように設計されている。
論文 参考訳(メタデータ) (2025-03-17T16:43:35Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。
提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
我々は,KVキャッシュ圧縮手法を,世界知識,コモンセンス推論,算術推論,コード生成,安全性,長文理解・生成など多種多様なタスクにわたって評価する。
解析の結果,KVキャッシュ圧縮手法はタスク固有の性能劣化を示すことがわかった。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを明確に扱う新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z) - A Survey on Large Language Model Acceleration based on KV Cache Management [21.4802409745396]
大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、マルチモーダルタスクなど、幅広い領域に革命をもたらした。
LLMの計算とメモリ要求は、それらを現実世界、長期コンテキスト、リアルタイムアプリケーションにスケールする際に大きな課題を生じさせる。
このサーベイは、LLMアクセラレーションのためのKVキャッシュ管理戦略を包括的に概観し、トークンレベル、モデルレベル、システムレベルの最適化に分類する。
論文 参考訳(メタデータ) (2024-12-27T04:17:57Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。