論文の概要: TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization
- arxiv url: http://arxiv.org/abs/2505.19586v2
- Date: Tue, 27 May 2025 03:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.162584
- Title: TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization
- Title(参考訳): TailorKV: Tailored KVキャッシュ最適化による長期推論のためのハイブリッドフレームワーク
- Authors: Dingyu Yao, Bowen Shen, Zheng Lin, Wei Liu, Jian Luan, Bin Wang, Weiping Wang,
- Abstract要約: 生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
- 参考スコア(独自算出の注目度): 21.229296254354878
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Key-Value (KV) cache in generative large language models (LLMs) introduces substantial memory overhead. Existing works mitigate this burden by offloading or compressing the KV cache. However, loading the entire cache incurs significant latency due to PCIe bandwidth bottlenecks in CPU-GPU communication, while aggressive compression causes notable performance degradation. We identify that certain layers in the LLM need to maintain global information and are unsuitable for selective loading. In contrast, other layers primarily focus on a few tokens with dominant activations that potentially incur substantial quantization error. This observation leads to a key insight that loading dominant tokens and quantizing all tokens can complement each other. Building on this insight, we propose a hybrid compression method, TailorKV, which seamlessly integrates quantization and offloading. TailorKV develops an inference framework along with a hardware-friendly implementation that leverages these complementary characteristics. Extensive long-context evaluations exhibit that TailorKV achieves nearly lossless performance under aggressive compression settings, outperforming the state-of-the-art. Particularly, the Llama-3.1-8B with 128k context can be served within a single RTX 3090 GPU, reaching 82 ms per token during decoding.
- Abstract(参考訳): 生成的大規模言語モデル(LLM)におけるキーバリュー(KV)キャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
しかし、CPU-GPU通信におけるPCIe帯域幅のボトルネックのため、キャッシュ全体をロードすると大きな遅延が発生し、一方アグレッシブ圧縮は顕著なパフォーマンス低下を引き起こす。
LLMのいくつかのレイヤはグローバルな情報を維持する必要があり、選択的なロードには適さない。
対照的に、他のレイヤは主に、実質的な量子化エラーを引き起こす可能性のある主要なアクティベーションを持ついくつかのトークンに焦点を当てている。
この観察は、支配的なトークンをロードし、すべてのトークンを定量化することで互いに補完できるという重要な洞察につながります。
この知見に基づいて,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
TailorKVは、これらの相補的な特性を活用するハードウェアフレンドリーな実装とともに、推論フレームワークを開発している。
広範囲にわたる長期コンテキスト評価では、TalorKVは攻撃的な圧縮設定下でほぼロスレスのパフォーマンスを達成し、最先端よりも優れていた。
特に、128kコンテキストのLlama-3.1-8Bは単一のRTX 3090 GPUで提供でき、復号時にトークン当たり82msに達する。
関連論文リスト
- Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。
提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。