Fugu-MT 論文翻訳(概要): Attention Score is not All You Need for Token Importance Indicator in KV Cache Reduction: Value Also Matters

論文の概要: Attention Score is not All You Need for Token Importance Indicator in KV Cache Reduction: Value Also Matters

arxiv url: http://arxiv.org/abs/2406.12335v2
Date: Wed, 02 Oct 2024 00:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 11:55:31.776854
Title: Attention Score is not All You Need for Token Importance Indicator in KV Cache Reduction: Value Also Matters
Title（参考訳）: 注意スコアは、KVキャッシュ削減におけるトークン重要度指標に必要なすべてではない:価値もまた重要である
Authors: Zhiyu Guo, Hidetaka Kamigaito, Taro Watanabe,
Abstract要約: 本稿では,トークンの重要性を評価するために,注目スコアと$ ell_1 $ 値ベクトルのノルムを併用したバリューアウェアトークンプルーニング(VATP)を提案する。 LLaMA2-7B-chatとVicuna-v1.5-7Bの16のLongBenchタスクに対する実験により、VATPは12以上のタスクにおいて注目スコアのみのベースラインよりも優れていることが示された。
参考スコア（独自算出の注目度）: 27.07430914301738
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling the context size of large language models (LLMs) enables them to perform various new tasks, e.g., book summarization. However, the memory cost of the Key and Value (KV) cache in attention significantly limits the practical applications of LLMs. Recent works have explored token pruning for KV cache reduction in LLMs, relying solely on attention scores as a token importance indicator. However, our investigation into value vector norms revealed a notably non-uniform pattern questioning their reliance only on attention scores. Inspired by this, we propose a new method: Value-Aware Token Pruning (VATP) which uses both attention scores and the $ \ell_{1} $ norm of value vectors to evaluate token importance. Extensive experiments on LLaMA2-7B-chat and Vicuna-v1.5-7B across 16 LongBench tasks demonstrate that VATP outperforms attention-score-only baselines in over 12 tasks, confirming the effectiveness of incorporating value vector norms into token importance evaluation of LLMs.
Abstract（参考訳）: 大きな言語モデル(LLM)のコンテキストサイズをスケールすることで、書籍の要約など、さまざまな新しいタスクを実行できる。しかし、キー・アンド・バリュー(KV)キャッシュが注目するメモリコストは、LCMの実践的応用を著しく制限する。最近の研究は、トークン重要度指標として注目スコアのみを頼りに、LCMのKVキャッシュ削減のためのトークンプルーニングを探求している。しかし,評価ベクトルノルムを調査した結果,注意点にのみ依存する不均一パターンが明らかとなった。トークンの重要度を評価するために,注目スコアと$ $ \ell_{1} $ norm of value vectors を併用して,VATP(Value-Aware Token Pruning)を提案する。 16のLongBenchタスクにわたるLLaMA2-7B-chatとVicuna-v1.5-7Bの広範な実験により、VATPは12以上のタスクにおいて注目スコアのみのベースラインよりも優れており、LLMのトークン重要度評価に値ベクトルノルムを組み込むことの有効性が確認された。

関連論文リスト

SmallKV: Small Model Assisted Compensation of KV Cache Compression for Efficient LLM Inference [71.20542521694524]
SmallKVはKVキャッシュ圧縮のための小型モデル補助補償法である。本研究では,SmallKVのスループットがベースライン法よりも1.75～2.56倍高いことを示す。
論文参考訳（メタデータ） (2025-08-03T09:15:36Z)
Draft-based Approximate Inference for LLMs [7.287280338330983]
本稿では,大規模言語モデル推論のための新しいフレームワークを提案する。提案手法の2つのインスタンス化について述べる: (i) SpecKV, ドラフトアウトプットを利用してKVペアの重要性を正確に評価し, より効率的なKVキャッシュダウンを実現する方法, (ii) SpecPC, ドラフトモデルのアテンションアクティベーションを使用して重要でないプロンプトトークンを識別・破棄する手法。我々の手法は、メモリ使用量、レイテンシ、スループットが同じ改善を保ちながら、既存のベースラインよりも常に高い精度を達成する。
論文参考訳（メタデータ） (2025-06-10T02:37:46Z)
AhaKV: Adaptive Holistic Attention-Driven KV Cache Eviction for Efficient Inference of Large Language Models [14.013793473739236]
我々は,蓄積した注目スコアのバイアスに対処するため,適応的全体的注意KV(Aha KV)を提案する。 Aha KVはバイアスを緩和し、グローバルな文脈で重要なトークンを保持します。
論文参考訳（メタデータ） (2025-06-04T09:25:53Z)
Multi-Token Attention [42.038277620194]
本稿では,複数クエリとキーベクトルを同時に重み付けできる新しいアテンション手法であるMulti-Token Attention (MTA)を提案する。提案手法は, 1つのベクトルの容量を超えるような, より豊かでニュアンスの高い情報を用いて, 関連するコンテキストを特定できる。
論文参考訳（メタデータ） (2025-04-01T15:59:32Z)
Quantize What Counts: Bit Allocation Insights Informed by Spectral Gaps in Keys and Values [57.54443445583921]
KV量子化法の拡張を目的とした2つの新しい定理を提供する。我々の最初の定理は、キー値ノルム格差(Key-Value Norm Disparity)と呼ばれ、鍵重み行列がよりリッチな情報を持っていることを述べる。第2の定理であるキー駆動量子化(Key-Driven Quantization)は、値上のキーの量子化精度の優先順位付けは、全体的な量子化性能に大きな改善をもたらすという仮説である。
論文参考訳（メタデータ） (2025-02-20T22:24:27Z)
Activation-aware Probe-Query: Effective Key-Value Retrieval for Long-Context LLMs Inference [56.71209737306054]
我々は,プローブ-textbfQuery を動的に決定し,関連する textbfKV ペアを推論するために利用する,トレーニングフリーの textbfActivation-aware アプローチである textbfActQKV を提案する。 Long-Bench と $infty$ Benchmarks の実験では、競合する推論品質とリソース効率を備えた最先端のパフォーマンスが実証されている。
論文参考訳（メタデータ） (2025-02-19T08:50:44Z)
AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-06T13:41:46Z)
Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding [58.364933651703524]
注目クエリの特定の領域において、集中した巨大な値が一貫して現れることを示す。これらの膨大な価値は文脈知識の解釈において重要な役割を担っている。大量の値の出現を辿り、そのような濃度は回転位置によって引き起こされる。
論文参考訳（メタデータ） (2025-02-03T17:47:03Z)
[CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-12-08T05:29:39Z)
A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。 i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文参考訳（メタデータ） (2024-12-04T13:56:44Z)
Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression [29.163757099307553]
大型視覚言語モデル(LVLM)のための効率的な推論フレームワークZipVLを提案する。 ZipVLは重要なトークンの動的比割り当て戦略によって計算とメモリのボトルネックを解消する。実験によると、ZipVLはプリフィルフェーズを2.6$times$で加速し、GPUメモリ使用量を50.0%削減できる。
論文参考訳（メタデータ） (2024-10-11T07:24:21Z)
Eigen Attention: Attention in Low-Rank Space for KV Cache Compression [9.080678336379528]
我々は,低ランク空間における注意操作を行うEigen Attentionを提案し,KVキャッシュメモリのオーバーヘッドを低減する。その結果,Eigen AttentionはKVキャッシュサイズを最大40%削減し,注目動作遅延を最大60%低減し,性能の低下を最小化できることがわかった。
論文参考訳（メタデータ） (2024-08-10T22:47:12Z)
A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文参考訳（メタデータ） (2024-06-17T11:35:16Z)
ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。 ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文参考訳（メタデータ） (2024-06-13T05:17:21Z)
Loki: Low-rank Keys for Efficient Sparse Attention [44.74682508879725]
大規模言語モデル(LLM)の推論は、計算コストとメモリコストの面で高価である。本研究では,注目ブロックで計算された鍵ベクトルの次元性に着目し,自己注意を近似する手法を提案する。低次元空間で計算されたアテンションスコアに基づいてKVキャッシュ内のトークンをランク付けし、選択する新しいスパースアテンション手法であるLokiを提案する。
論文参考訳（メタデータ） (2024-06-04T17:58:03Z)
Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。 StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文参考訳（メタデータ） (2023-09-29T17:59:56Z)
Generic Attention-model Explainability by Weighted Relevance Accumulation [9.816810016935541]
本稿では,トークン値の重要性を考慮に入れた重み付き関連性戦略を提案する。提案手法を評価するために,CLIPをベースとした2段階モデルCLIPmapperを提案する。
論文参考訳（メタデータ） (2023-08-20T12:02:30Z)
On the Eigenvalues of Global Covariance Pooling for Fine-grained Visual Recognition [65.67315418971688]
グローバル共分散プーリング(GCP)の小さな固有値をトラッピングすることで、よりスムーズな勾配が得られることを示す。きめ細かいデータセットでは、小さな固有値の切り抜きは、モデルを収束させるのに失敗する。この観測から着想を得て,小さな固有値の重要性を拡大するネットワーク分岐を提案する。
論文参考訳（メタデータ） (2022-05-26T11:41:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。