論文の概要: SurfaceLogicKV: Surface and Logic Attention Behaviors are All You Need for Robust KV Cache Compression
- arxiv url: http://arxiv.org/abs/2508.15806v1
- Date: Thu, 14 Aug 2025 14:08:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.548613
- Title: SurfaceLogicKV: Surface and Logic Attention Behaviors are All You Need for Robust KV Cache Compression
- Title(参考訳): SurfaceLogicKV:ロバストなKVキャッシュ圧縮に必要なサーフェスとロジックの注意行動
- Authors: Mengjie Li, William J. Song,
- Abstract要約: LLM(Large Language Models)における入力シーケンス長の増大は、キー値(KV)キャッシュストレージに大きな圧力をかける。
個人の注意頭は様々な行動を示すことができ、98.5%近くは、完全に無関係な情報を無視している。
KVキャッシュ圧縮にこれらの注意行動を利用する2段階のSurfaceLogicKV法を提案する。
- 参考スコア(独自算出の注目度): 4.114538019657171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing input sequence length in Large Language Models (LLMs) puts significant pressure on key-value (KV) cache storage, making efficient inference challenging. Explicitly distinguishing attention behavior into our self-defined surface memorization and logic construction reveals essential roles in long-context reasoning. We observe that an individual attention head can display various behaviors, with nearly 98.5% effectively ignoring completely irrelevant information. The remaining 1.5% behaves as logic construction, and 0.5% behaves as surface memorization. Based on layer- and head-wise integration, we propose a novel two-stage SurfaceLogicKV method to utilize these attention behaviors for KV Cache compression. As a result, it achieves improved compressing robustness while maintaining competitive performance across various tasks and long sequences compared to baselines or even FullKV in some specific situations
- Abstract(参考訳): LLM(Large Language Models)における入力シーケンス長の増大はキー値(KV)キャッシュストレージに大きな圧力を与え、効率的な推論を困難にしている。
自己定義した表面の記憶と論理構造に注意行動を明確に区別することは、長文推論において重要な役割を担っている。
我々は、個人が様々な行動を示すことができ、98.5%近くが全く無関係な情報を無視しているのを観察する。
残りの1.5%は論理構造として振る舞い、0.5%は表面記憶として振る舞う。
KVキャッシュ圧縮にこれらの注意行動を利用する2段階のSurfaceLogicKV法を提案する。
その結果、特定の状況下ではベースラインやFullKVと比較して、様々なタスクや長いシーケンスの競合性能を維持しながら、圧縮堅牢性の向上を実現している。
関連論文リスト
- R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - DynamicKV: Task-Aware Adaptive KV Cache Compression for Long Context LLMs [31.62076958302603]
既存のKVキャッシュ圧縮手法は、タスク固有の特性を無視し、必須情報の保持を減らす固定パターンを強制する。
本研究では,各層に保持されるトークンの数を調整することで,トークン保持を動的に最適化するDynamicKVを提案する。
本手法は,LongBench上でのフルKVキャッシュ性能の85%を達成しながら,KVキャッシュサイズの1.7%しか保持しない。
論文 参考訳(メタデータ) (2024-12-19T13:28:42Z) - Not All Heads Matter: A Head-Level KV Cache Compression Method with Integrated Retrieval and Reasoning [19.942402563256962]
キーバリューキャッシング(キーバリューキャッシング、英: Key-Value cache)は、大規模言語モデル(LLM)の計算効率を高めるための一般的な手法である。
本稿では,新たな文脈推論能力推定手法であるヘッドKVとヘッドKV-R2を提案する。
本手法は,文脈質問応答ベンチマークにおいて,全KVキャッシュの性能の97%を達成しつつ,KVキャッシュの1.5%しか保持しない。
論文 参考訳(メタデータ) (2024-10-25T02:22:00Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。