論文の概要: WeightedKV: Attention Scores Weighted Key-Value Cache Merging for Large Language Models
- arxiv url: http://arxiv.org/abs/2503.01330v1
- Date: Mon, 03 Mar 2025 09:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:37.914418
- Title: WeightedKV: Attention Scores Weighted Key-Value Cache Merging for Large Language Models
- Title(参考訳): 重み付けKV:大規模言語モデルのための重み付けキーバリューキャッシュマージ
- Authors: Jian Yuan, Ziwei He, Haoli Bai, Jingwen Leng, Bo Jiang,
- Abstract要約: 大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、自動回帰生成における冗長な計算を削減する。
ほとんどのKVキャッシュ圧縮手法は、固定キャッシュサイズを維持するために重要でないKVペアを排除し、生成時にトークンが恒久的に失われる。
WeightedKVは、重要でないトークンのテキストキーを排除し、平均アテンションスコアで重み付けされた凸組み合わせにより、それらのテキスト値を隣接するトークンにマージする、トレーニング不要なアプローチである。
- 参考スコア(独自算出の注目度): 19.06842704338332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) use key-value (KV) cache to reduce redundant computation in autoregressive generation. However, the KV cache size increases linearly during generation, leading to excessive memory usage, especially for long texts. Most KV cache compression methods evict the unimportant KV pairs to maintain a fixed cache size, which leads to the permanent loss of tokens during generation. However, singular value decomposition shows that \textit{values} do not exhibit a strong low-rank property as \textit{keys} do, suggesting that information is distributed more evenly across \textit{values}, in contrast to its more redundant distribution within \textit{keys}. Therefore, methods that evict both \textit{keys} and \textit{values} risk losing crucial information and compromise context integrity, ultimately degrading the output quality. To address this problem, we propose WeightedKV, a novel, training-free approach that discards the \textit{keys} of less important tokens, while merging their \textit{values} into neighboring tokens via a convex combination weighted by their average attention scores. In this way, the retained \textit{keys} serve as anchors that guide the generation process, while the merged \textit{values} provide a rich contextual backdrop. We assess our method on four widely used language modeling datasets, demonstrating superior performance compared to all baseline methods, particularly with a lower budget ratio.
- Abstract(参考訳): 大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、自動回帰生成における冗長な計算を削減する。
しかし、KVキャッシュサイズは世代毎に線形に増加し、特に長いテキストではメモリ使用量が過剰になる。
ほとんどのKVキャッシュ圧縮手法は、固定キャッシュサイズを維持するために重要でないKVペアを排除し、生成時にトークンが恒久的に失われる。
しかし特異値分解は、 \textit{values} が \textit{keys} のように強い低ランク性を示していないことを示しており、より冗長な \textit{keys} の分布とは対照的に、情報はより均一に \textit{values} に分散されていることを示唆している。
したがって、 \textit{keys} と \textit{values} の両方を除外するメソッドは、決定的な情報を失い、コンテキストの整合性を損なう危険性があり、最終的に出力品質が低下する。
この問題に対処するために、WeightedKVを提案する。これは、あまり重要でないトークンの \textit{keys} を破棄し、平均アテンションスコアで重み付けされた凸組み合わせにより、それらの \textit{values} を隣接するトークンにマージする、新しい、トレーニング不要なアプローチである。
このように、保持された \textit{keys} は生成プロセスを導くアンカーとして機能し、マージされた \textit{values} はリッチなコンテキスト背景を提供する。
提案手法は,広く使用されている4つの言語モデリングデータセットを用いて評価し,特に予算率の低いベースライン手法と比較して優れた性能を示す。
関連論文リスト
- SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching [9.617322424513317]
SentenceKVは、セマンティックコヒーレンスを保持しながら推論効率を向上させるために設計された、新しいKVキャッシュアプローチである。
本研究では,SentenceKVがモデル精度を損なうことなく,効率とメモリ使用量の両方において最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-01T17:08:57Z) - Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving [23.2180736755494]
キーバリューキャッシュ(textttKV texttcache)圧縮は、LLM(Large Language Model)サービスを最適化するための有望なテクニックとして登場した。
主にtextttKV textttcache のメモリ消費を削減し、計算コストを削減する。
多くの圧縮アルゴリズムが開発されているが、本番環境での応用はまだ一般的ではない。
論文 参考訳(メタデータ) (2025-03-31T12:23:31Z) - CODA: Repurposing Continuous VAEs for Discrete Tokenization [52.58960429582813]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z) - Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。
保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。
我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文 参考訳(メタデータ) (2025-03-02T18:12:50Z) - TreeKV: Smooth Key-Value Cache Compression with Tree Structures [19.06842704338332]
TreeKVは、スムーズなキャッシュ圧縮のためにツリー構造を利用するトレーニング不要の手法である。
PG19とOpenWebText2の言語モデリングタスクのベースラインモデルを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-09T06:00:27Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Finch: Prompt-guided Key-Value Cache Compression [9.260624506794226]
本稿では,事前学習した自己意図の重みを生かして,入力コンテキストを圧縮する新しい手法Finchを提案する。
本提案では,高圧縮(最大93倍)のモデルでも,微調整を必要とせずにセマンティックな整合性を保ちながら大きな入力を消費することができる。
論文 参考訳(メタデータ) (2024-07-31T21:33:56Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。
既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。
本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文 参考訳(メタデータ) (2024-02-14T18:54:56Z) - On the Efficacy of Eviction Policy for Key-Value Constrained Generative
Language Model Inference [40.789027180025286]
大規模言語モデル(LLM)は、リソース制約のある環境でのデプロイに特に費用がかかる。
本稿では,時間的注意スコアとロバストネス測定に基づく堅牢なキャッシュ省略ポリシーであるRoCoを紹介する。
ユーザフレンドリーなキー値制約付き生成推論専用の汎用ソフトウェアパッケージであるEasyKVをリリースする。
論文 参考訳(メタデータ) (2024-02-09T09:20:59Z) - SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。
本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。
我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。
このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文 参考訳(メタデータ) (2024-02-08T22:17:40Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。