論文の概要: Attention Score is not All You Need for Token Importance Indicator in KV Cache Reduction: Value Also Matters
- arxiv url: http://arxiv.org/abs/2406.12335v2
- Date: Wed, 02 Oct 2024 00:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:12.474704
- Title: Attention Score is not All You Need for Token Importance Indicator in KV Cache Reduction: Value Also Matters
- Title(参考訳): 注意スコアは、KVキャッシュ削減におけるトークン重要度指標に必要なすべてではない:価値もまた重要である
- Authors: Zhiyu Guo, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: 本稿では,トークンの重要性を評価するために,注目スコアと$ ell_1 $ 値ベクトルのノルムを併用したバリューアウェアトークンプルーニング(VATP)を提案する。
LLaMA2-7B-chatとVicuna-v1.5-7Bの16のLongBenchタスクに対する実験により、VATPは12以上のタスクにおいて注目スコアのみのベースラインよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 27.07430914301738
- License:
- Abstract: Scaling the context size of large language models (LLMs) enables them to perform various new tasks, e.g., book summarization. However, the memory cost of the Key and Value (KV) cache in attention significantly limits the practical applications of LLMs. Recent works have explored token pruning for KV cache reduction in LLMs, relying solely on attention scores as a token importance indicator. However, our investigation into value vector norms revealed a notably non-uniform pattern questioning their reliance only on attention scores. Inspired by this, we propose a new method: Value-Aware Token Pruning (VATP) which uses both attention scores and the $ \ell_{1} $ norm of value vectors to evaluate token importance. Extensive experiments on LLaMA2-7B-chat and Vicuna-v1.5-7B across 16 LongBench tasks demonstrate that VATP outperforms attention-score-only baselines in over 12 tasks, confirming the effectiveness of incorporating value vector norms into token importance evaluation of LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)のコンテキストサイズをスケールすることで、書籍の要約など、さまざまな新しいタスクを実行できる。
しかし、キー・アンド・バリュー(KV)キャッシュが注目するメモリコストは、LCMの実践的応用を著しく制限する。
最近の研究は、トークン重要度指標として注目スコアのみを頼りに、LCMのKVキャッシュ削減のためのトークンプルーニングを探求している。
しかし,評価ベクトルノルムを調査した結果,注意点にのみ依存する不均一パターンが明らかとなった。
トークンの重要度を評価するために,注目スコアと$ $ \ell_{1} $ norm of value vectors を併用して,VATP(Value-Aware Token Pruning)を提案する。
16のLongBenchタスクにわたるLLaMA2-7B-chatとVicuna-v1.5-7Bの広範な実験により、VATPは12以上のタスクにおいて注目スコアのみのベースラインよりも優れており、LLMのトークン重要度評価に値ベクトルノルムを組み込むことの有効性が確認された。
関連論文リスト
- Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Loki: Low-Rank Keys for Efficient Sparse Attention [44.74682508879725]
低次元空間で計算された注目スコアに基づいて、KVキャッシュ内のトークンをランク付けし、選択する新しいスパースアテンション手法を提案する。
評価の結果,ロキは他の近似法よりもモデルの有効性を向上できることが示された。
論文 参考訳(メタデータ) (2024-06-04T17:58:03Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - Generic Attention-model Explainability by Weighted Relevance
Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。
提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文 参考訳(メタデータ) (2023-08-20T12:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。