論文の概要: SnapKV: LLM Knows What You are Looking for Before Generation
- arxiv url: http://arxiv.org/abs/2404.14469v1
- Date: Mon, 22 Apr 2024 17:42:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 18:07:28.874809
- Title: SnapKV: LLM Knows What You are Looking for Before Generation
- Title(参考訳): SnapKV: LLMは、あなたが生成前に探しているものを知っている
- Authors: Yuhong Li, Yingbing Huang, Bowen Yang, Bharat Venkitesh, Acyr Locatelli, Hanchen Ye, Tianle Cai, Patrick Lewis, Deming Chen,
- Abstract要約: SnapKVは、キーバリューキャッシュサイズを効率的に最小化する、微調整不要のアプローチである。
現実世界のアプリケーションで同等のパフォーマンスを提供する。
さらなる研究は、SnapKVの実用的な応用の可能性を示している。
- 参考スコア(独自算出の注目度): 22.138577426977907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have made remarkable progress in processing extensive contexts, with the Key-Value (KV) cache playing a vital role in enhancing their performance. However, the growth of the KV cache in response to increasing input length poses challenges to memory and time efficiency. To address this problem, this paper introduces SnapKV, an innovative and fine-tuning-free approach that efficiently minimizes KV cache size while still delivering comparable performance in real-world applications. We discover that each attention head in the model consistently focuses on specific prompt attention features during generation. Meanwhile, this robust pattern can be obtained from an `observation' window located at the end of the prompts. Drawing on this insight, SnapKV automatically compresses KV caches by selecting clustered important KV positions for each attention head. Our approach significantly reduces the growing computational overhead and memory footprint when processing long input sequences. Specifically, SnapKV achieves a consistent decoding speed with a 3.6x increase in generation speed and an 8.2x enhancement in memory efficiency compared to baseline when processing inputs of 16K tokens. At the same time, it maintains comparable performance to baseline models across 16 long sequence datasets. Moreover, SnapKV can process up to 380K context tokens on a single A100-80GB GPU using HuggingFace implementation with minor changes, exhibiting only a negligible accuracy drop in the Needle-in-a-Haystack test. Further comprehensive studies suggest SnapKV's potential for practical applications.
- Abstract(参考訳): 大きな言語モデル(LLM)は、キーバリュー(KV)キャッシュがパフォーマンス向上に重要な役割を果たしているため、広範なコンテキストの処理において顕著な進歩を遂げている。
しかし、入力長の増加に対応するKVキャッシュの増加は、メモリと時間効率に課題をもたらす。
この問題に対処するため,本稿では,KVキャッシュサイズを効率よく最小化しつつ,実世界のアプリケーションで同等のパフォーマンスを実現する,革新的な,微調整不要なアプローチであるSnapKVを紹介する。
モデル内の各注意点が、生成中の特定の注意点に一貫して焦点を合わせていることが判明した。
一方、この堅牢なパターンはプロンプトの端にある‘オブザーブレーション’ウィンドウから得ることができる。
この洞察に基づいてSnapKVは、注目ヘッド毎にクラスタ化された重要なKV位置を選択することで、KVキャッシュを自動的に圧縮する。
提案手法は,長い入力シーケンスを処理する際の計算オーバーヘッドとメモリフットプリントの増大を著しく低減する。
具体的には、SnapKVは16Kトークンの入力を処理する際に、生成速度が3.6倍、メモリ効率が8.2倍向上して一貫した復号速度を達成する。
同時に、16の長いシーケンスデータセットにわたるベースラインモデルに匹敵するパフォーマンスを維持している。
さらに、SnapKVはHuggingFace実装を使って1つのA100-80GB GPU上で最大380Kのコンテキストトークンを小さな変更で処理でき、Needdle-in-a-Haystackテストでは無視できる精度の低下しか表示できない。
より包括的な研究は、SnapKVの実用的な応用の可能性を示している。
関連論文リスト
- VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。
キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。
既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である
VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文 参考訳(メタデータ) (2024-10-29T20:04:34Z) - SwiftKV: Fast Prefill-Optimized Inference with Knowledge-Preserving Model Transformation [32.62031120968721]
本稿では,プロンプトトークン処理の時間とコストを削減するために特別に設計されたモデル変換・蒸留手法であるSwiftKVを提案する。
Llama-3.1-8Bと70Bでは、SwiftKVはプリフィルの計算要求を50%削減し、KVキャッシュのメモリ要求を62.5%削減した。
16ビット精度でLlama-3.1-70Bの16Kトークン/sに変換する通常の推論スループットの560 TFlops/GPUを実現することができる。
論文 参考訳(メタデータ) (2024-10-04T22:45:26Z) - Eigen Attention: Attention in Low-Rank Space for KV Cache Compression [9.080678336379528]
我々は,低ランク空間における注意操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。
その結果,Eigen AttentionはKVキャッシュサイズを最大40%削減し,注目動作遅延を最大60%低減し,性能の低下を最小化できることがわかった。
論文 参考訳(メタデータ) (2024-08-10T22:47:12Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。
観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。
これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。