論文の概要: WeightedKV: Attention Scores Weighted Key-Value Cache Merging for Large Language Models
- arxiv url: http://arxiv.org/abs/2503.01330v1
- Date: Mon, 03 Mar 2025 09:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:18.218998
- Title: WeightedKV: Attention Scores Weighted Key-Value Cache Merging for Large Language Models
- Title(参考訳): 重み付けKV:大規模言語モデルのための重み付けキーバリューキャッシュマージ
- Authors: Jian Yuan, Ziwei He, Haoli Bai, Jingwen Leng, Bo Jiang,
- Abstract要約: 大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、自動回帰生成における冗長な計算を削減する。
ほとんどのKVキャッシュ圧縮手法は、固定キャッシュサイズを維持するために重要でないKVペアを排除し、生成時にトークンが恒久的に失われる。
WeightedKVは、重要でないトークンのテキストキーを排除し、平均アテンションスコアで重み付けされた凸組み合わせにより、それらのテキスト値を隣接するトークンにマージする、トレーニング不要なアプローチである。
- 参考スコア(独自算出の注目度): 19.06842704338332
- License:
- Abstract: Large Language Models (LLMs) use key-value (KV) cache to reduce redundant computation in autoregressive generation. However, the KV cache size increases linearly during generation, leading to excessive memory usage, especially for long texts. Most KV cache compression methods evict the unimportant KV pairs to maintain a fixed cache size, which leads to the permanent loss of tokens during generation. However, singular value decomposition shows that \textit{values} do not exhibit a strong low-rank property as \textit{keys} do, suggesting that information is distributed more evenly across \textit{values}, in contrast to its more redundant distribution within \textit{keys}. Therefore, methods that evict both \textit{keys} and \textit{values} risk losing crucial information and compromise context integrity, ultimately degrading the output quality. To address this problem, we propose WeightedKV, a novel, training-free approach that discards the \textit{keys} of less important tokens, while merging their \textit{values} into neighboring tokens via a convex combination weighted by their average attention scores. In this way, the retained \textit{keys} serve as anchors that guide the generation process, while the merged \textit{values} provide a rich contextual backdrop. We assess our method on four widely used language modeling datasets, demonstrating superior performance compared to all baseline methods, particularly with a lower budget ratio.
- Abstract(参考訳): 大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、自動回帰生成における冗長な計算を削減する。
しかし、KVキャッシュサイズは世代毎に線形に増加し、特に長いテキストではメモリ使用量が過剰になる。
ほとんどのKVキャッシュ圧縮手法は、固定キャッシュサイズを維持するために重要でないKVペアを排除し、生成時にトークンが恒久的に失われる。
しかし特異値分解は、 \textit{values} が \textit{keys} のように強い低ランク性を示していないことを示しており、より冗長な \textit{keys} の分布とは対照的に、情報はより均一に \textit{values} に分散されていることを示唆している。
したがって、 \textit{keys} と \textit{values} の両方を除外するメソッドは、決定的な情報を失い、コンテキストの整合性を損なう危険性があり、最終的に出力品質が低下する。
この問題に対処するために、WeightedKVを提案する。これは、あまり重要でないトークンの \textit{keys} を破棄し、平均アテンションスコアで重み付けされた凸組み合わせにより、それらの \textit{values} を隣接するトークンにマージする、新しい、トレーニング不要なアプローチである。
このように、保持された \textit{keys} は生成プロセスを導くアンカーとして機能し、マージされた \textit{values} はリッチなコンテキスト背景を提供する。
提案手法は,広く使用されている4つの言語モデリングデータセットを用いて評価し,特に予算率の低いベースライン手法と比較して優れた性能を示す。
関連論文リスト
- CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - Cross-Self KV Cache Pruning for Efficient Vision-Language Inference [19.062950348441426]
KVキャッシュプルーニングは、長文自動回帰生成におけるメモリと計算コストを削減するための有望な手法として登場した。
我々は、注意スコアをモダリティ内注意(同じモダリティ)とモダリティ間注意(全体モダリティ)に分解することを提案する。
最終的なトレーニング不要手法である textbfCross-textbfSelf textbfPruning (CSP) は、完全なKVキャッシュを持つモデルと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2024-12-05T22:47:17Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [65.36715026409873]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - Finch: Prompt-guided Key-Value Cache Compression [9.260624506794226]
本稿では,事前学習した自己意図の重みを生かして,入力コンテキストを圧縮する新しい手法Finchを提案する。
本提案では,高圧縮(最大93倍)のモデルでも,微調整を必要とせずにセマンティックな整合性を保ちながら大きな入力を消費することができる。
論文 参考訳(メタデータ) (2024-07-31T21:33:56Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。