論文の概要: Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques
- arxiv url: http://arxiv.org/abs/2503.11816v1
- Date: Fri, 14 Mar 2025 19:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:16.243513
- Title: Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques
- Title(参考訳): キー,バリュー,圧縮:KVキャッシュ圧縮技術の体系的な探索
- Authors: Neusha Javidnia, Bita Darvish Rouhani, Farinaz Koushanfar,
- Abstract要約: 大規模言語モデル(LLM)は、テキスト、画像、ビデオコンテンツを生成する際、例外的な能力を示した。
文脈長が大きくなるにつれて、トークンの数が増えるにつれて、注意の計算コストは2次的に増加する。
本稿では,キーバリュー(KV)キャッシュ圧縮戦略の解析を行う。
- 参考スコア(独自算出の注目度): 14.69396650781309
- License:
- Abstract: Large language models (LLMs) have demonstrated exceptional capabilities in generating text, images, and video content. However, as context length grows, the computational cost of attention increases quadratically with the number of tokens, presenting significant efficiency challenges. This paper presents an analysis of various Key-Value (KV) cache compression strategies, offering a comprehensive taxonomy that categorizes these methods by their underlying principles and implementation techniques. Furthermore, we evaluate their impact on performance and inference latency, providing critical insights into their effectiveness. Our findings highlight the trade-offs involved in KV cache compression and its influence on handling long-context scenarios, paving the way for more efficient LLM implementations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキスト、画像、ビデオコンテンツを生成する際、例外的な能力を示した。
しかし、文脈の長さが長くなるにつれて、トークンの数とともに注意の計算コストが2次的に増加し、大きな効率上の課題が浮かび上がる。
本稿では,キーバリュー(KV)キャッシュ圧縮戦略の解析を行い,これらの手法を基本原理と実装手法によって分類する包括的分類法を提案する。
さらに、パフォーマンスと推論遅延への影響を評価し、その効果について重要な洞察を提供する。
以上の結果から,KVキャッシュ圧縮に関わるトレードオフと,その長期コンテキストシナリオ処理への影響が注目され,より効率的なLLM実装への道が開かれた。
関連論文リスト
- Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。
Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2025-02-19T08:50:44Z) - Can LLMs Maintain Fundamental Abilities under KV Cache Compression? [29.510433427184385]
我々は,KVキャッシュ圧縮手法を,世界知識,コモンセンス推論,算術推論,コード生成,安全性,長文理解・生成など多種多様なタスクにわたって評価する。
解析の結果,KVキャッシュ圧縮手法はタスク固有の性能劣化を示すことがわかった。
ショットレベルのセマンティックコヒーレンスを維持しつつ、プリフィルとデコードフェーズを明確に扱う新しい圧縮手法ShotKVを提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:06Z) - A Survey on Large Language Model Acceleration based on KV Cache Management [21.4802409745396]
大規模言語モデル(LLM)は、自然言語処理、コンピュータビジョン、マルチモーダルタスクなど、幅広い領域に革命をもたらした。
LLMの計算とメモリ要求は、それらを現実世界、長期コンテキスト、リアルタイムアプリケーションにスケールする際に大きな課題を生じさせる。
このサーベイは、LLMアクセラレーションのためのKVキャッシュ管理戦略を包括的に概観し、トークンレベル、モデルレベル、システムレベルの最適化に分類する。
論文 参考訳(メタデータ) (2024-12-27T04:17:57Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - QAQ: Quality Adaptive Quantization for LLM KV Cache [3.163526369095745]
モデルデプロイメントのボトルネックは、コンテキスト長のキーバリューキャッシュの線形拡張によって生じる。
KVキャッシュのための品質適応量子化スキームQAQを提案する。
論文 参考訳(メタデータ) (2024-03-07T16:42:37Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。