論文の概要: AhaKV: Adaptive Holistic Attention-Driven KV Cache Eviction for Efficient Inference of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.03762v1
- Date: Wed, 04 Jun 2025 09:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.26325
- Title: AhaKV: Adaptive Holistic Attention-Driven KV Cache Eviction for Efficient Inference of Large Language Models
- Title(参考訳): AhaKV:大規模言語モデルの効率的な推論のための適応的ホロスティックアテンション駆動型KVキャッシュ推定
- Authors: Yifeng Gu, Zicong Jiang, Jianxiu Jin, Kailing Guo, Ziyang Zhang, Xiangmin Xu,
- Abstract要約: 我々は,蓄積した注目スコアのバイアスに対処するため,適応的全体的注意KV(Aha KV)を提案する。
Aha KVはバイアスを緩和し、グローバルな文脈で重要なトークンを保持します。
- 参考スコア(独自算出の注目度): 14.013793473739236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have significantly advanced the field of Artificial Intelligence. However, their deployment is resource-intensive, not only due to the large number of model parameters but also because the (Key-Value) KV cache consumes a lot of memory during inference. While several works propose reducing the KV cache by evicting the unnecessary tokens, these approaches rely on accumulated attention score as eviction score to quantify the importance of the token. We identify the accumulated attention score is biased and it decreases with the position of the tokens in the mathematical expectation. As a result, the retained tokens concentrate on the initial positions, limiting model's access to global contextual information. To address this issue, we propose Adaptive holistic attention KV (AhaKV), it addresses the bias of the accumulated attention score by adaptively tuning the scale of softmax according the expectation of information entropy of attention scores. To make use of the holistic attention information in self-attention mechanism, AhaKV utilize the information of value vectors, which is overlooked in previous works, to refine the adaptive score. We show theoretically that our method is well suited for bias reduction. We deployed AhaKV on different models with a fixed cache budget. Experiments show that AhaKV successfully mitigates bias and retains crucial tokens across global context and achieve state-of-the-art results against other related work on several benchmark tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能の分野を大きく進歩させた。
しかしながら、そのデプロイメントは、多数のモデルパラメータのためだけでなく、(Key-Value) KVキャッシュが推論中に大量のメモリを消費するため、リソース集約である。
いくつかの研究が不必要なトークンを排除してKVキャッシュを減らすことを提案しているが、これらのアプローチはトークンの重要性を定量化するために、消去スコアとして蓄積された注意スコアに依存している。
蓄積された注目スコアは偏りがあり、数学的な期待値におけるトークンの位置によって減少する。
結果として、保持されたトークンは初期位置に集中し、グローバルな文脈情報へのアクセスを制限する。
この問題に対処するため,アダプティブ・ホリスティック・アテンションKV (AhaKV) を提案し,アテンションスコアの情報エントロピーの期待に応じてソフトマックスのスケールを適応的に調整することで,アダプティブ・ホリスティック・アテンションKV (AhaKV) のバイアスに対処する。
自己注意機構における全体的注意情報を利用するために、AhaKVは、以前の研究で見落とされた値ベクトルの情報を用いて、適応スコアを洗練する。
本手法がバイアス低減に適していることが理論的に示されている。
私たちはAhaKVを固定キャッシュ予算でさまざまなモデルにデプロイしました。
実験によると、AhaKVはバイアスを緩和し、グローバルな文脈で重要なトークンを保持し、いくつかのベンチマークタスクに関する他の関連する作業に対して最先端の結果を達成する。
関連論文リスト
- AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Task-KV: Task-aware KV Cache Optimization via Semantic Differentiation of Attention Heads [4.797407445026818]
KVキャッシュは、大規模言語モデル(LLM)の推論に広く使われている手法である。
これまでの研究では、すべての注意頭に対して同じ数の重要でないトークンを除去するか、または事前に特定された注意頭に対して区別されたKVキャッシュ予算を割り当てることによって、KVキャッシュのサイズを縮小してきた。
本稿では,様々なタスクに分散KVキャッシュ予算を割り当てるために,アテンションヘッドのセマンティックな分化を利用するTask-KVを提案する。
論文 参考訳(メタデータ) (2025-01-25T07:28:13Z) - Cross-Self KV Cache Pruning for Efficient Vision-Language Inference [19.062950348441426]
KVキャッシュプルーニングは、長文自動回帰生成におけるメモリと計算コストを削減するための有望な手法として登場した。
我々は、注意スコアをモダリティ内注意(同じモダリティ)とモダリティ間注意(全体モダリティ)に分解することを提案する。
最終的なトレーニング不要手法である textbfCross-textbfSelf textbfPruning (CSP) は、完全なKVキャッシュを持つモデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-05T22:47:17Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。