論文の概要: GraphKV: Breaking the Static Selection Paradigm with Graph-Based KV Cache Eviction
- arxiv url: http://arxiv.org/abs/2509.00388v1
- Date: Sat, 30 Aug 2025 06:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.210116
- Title: GraphKV: Breaking the Static Selection Paradigm with Graph-Based KV Cache Eviction
- Title(参考訳): GraphKV: グラフベースのKVキャッシュによる静的選択パラダイムを破る
- Authors: Xuelin Li, Xiangqi Jin, Linfeng Zhang,
- Abstract要約: GraphKVは、KVキャッシュ圧縮のためのトークン選択を再定義するグラフベースのフレームワークである。
SnapKV や PyramidKV といった既存の KV キャッシュ消去手法をプラグイン・アンド・プレイ方式でシームレスに利用することができる。
- 参考スコア(独自算出の注目度): 9.309829912599367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient Key-Value (KV) cache management is essential for processing long text sequences in large language models (LLMs), where memory constraints often limit performance. Conventional KV eviction strategies, such as top-k selection based on attention scores, depend on static heuristics that fail to capture the evolving implicit dependencies among tokens during inference. To overcome this, we propose GraphKV, a graph-based framework that redefines token selection for KV cache compression. In GraphKV, tokens are modeled as nodes with importance scores, and edges represent their similarity relationships. Through a decay-signal-propagation mechanism, token importance is dynamically updated by propagating information across the graph, enabling adaptive retention of the most contextually significant tokens. GraphKV can be seamlessly utilized in existing KV cache eviction methods such as SnapKV and PyramidKV in a plug-and-play manner. Codes will be released on Github.
- Abstract(参考訳): キーバリュー(KV)キャッシュ管理は、大きな言語モデル(LLM)で長いテキストシーケンスを処理するのに不可欠である。
注意点に基づくトップk選択のような従来のKV排除戦略は、推論中にトークン間の暗黙的依存関係の進化を捉えるのに失敗する静的ヒューリスティックに依存している。
そこで我々は,KVキャッシュ圧縮のためのトークン選択を再定義するグラフベースのフレームワークであるGraphKVを提案する。
GraphKVでは、トークンは重要なスコアを持つノードとしてモデル化され、エッジはその類似関係を表す。
崩壊信号伝達機構を通じて、トークンの重要度はグラフ全体に情報を伝達することで動的に更新され、最も文脈的に重要なトークンの適応的保持を可能にする。
GraphKVは、SnapKVやPraamidKVといった既存のKVキャッシュ消去手法で、プラグイン・アンド・プレイ方式でシームレスに利用することができる。
コードはGithubで公開される。
関連論文リスト
- Graph-KV: Breaking Sequence via Injecting Structural Biases into Large Language Models [63.64507678113921]
構造的帰納バイアスを通して相互作用を管理するグラフ-KVを導入する。
このフレームワークでは、「ターゲット」セグメントは指定された「ソース」セグメントのKV-cacheのみに選択的に参加する。
我々は,(1)直接推論,マルチホップ推論,長期文書理解にまたがる7つのRAGベンチマーク,(2)引用エゴグラフとして構造化された全文科学論文を用いた新しい学術論文QAタスクArxiv-QA,(3)引用ネットワーク内の論文トピック分類の3つのシナリオでグラフ-KVを評価する。
論文 参考訳(メタデータ) (2025-06-09T00:30:08Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。
textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。