Fugu-MT 論文翻訳(概要): WeightedKV: Attention Scores Weighted Key-Value Cache Merging for Large Language Models

論文の概要: WeightedKV: Attention Scores Weighted Key-Value Cache Merging for Large Language Models

arxiv url: http://arxiv.org/abs/2503.01330v1
Date: Mon, 03 Mar 2025 09:12:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.914418
Title: WeightedKV: Attention Scores Weighted Key-Value Cache Merging for Large Language Models
Title（参考訳）: 重み付けKV:大規模言語モデルのための重み付けキーバリューキャッシュマージ
Authors: Jian Yuan, Ziwei He, Haoli Bai, Jingwen Leng, Bo Jiang,
Abstract要約: 大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、自動回帰生成における冗長な計算を削減する。ほとんどのKVキャッシュ圧縮手法は、固定キャッシュサイズを維持するために重要でないKVペアを排除し、生成時にトークンが恒久的に失われる。 WeightedKVは、重要でないトークンのテキストキーを排除し、平均アテンションスコアで重み付けされた凸組み合わせにより、それらのテキスト値を隣接するトークンにマージする、トレーニング不要なアプローチである。
参考スコア（独自算出の注目度）: 19.06842704338332
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) use key-value (KV) cache to reduce redundant computation in autoregressive generation. However, the KV cache size increases linearly during generation, leading to excessive memory usage, especially for long texts. Most KV cache compression methods evict the unimportant KV pairs to maintain a fixed cache size, which leads to the permanent loss of tokens during generation. However, singular value decomposition shows that \textit{values} do not exhibit a strong low-rank property as \textit{keys} do, suggesting that information is distributed more evenly across \textit{values}, in contrast to its more redundant distribution within \textit{keys}. Therefore, methods that evict both \textit{keys} and \textit{values} risk losing crucial information and compromise context integrity, ultimately degrading the output quality. To address this problem, we propose WeightedKV, a novel, training-free approach that discards the \textit{keys} of less important tokens, while merging their \textit{values} into neighboring tokens via a convex combination weighted by their average attention scores. In this way, the retained \textit{keys} serve as anchors that guide the generation process, while the merged \textit{values} provide a rich contextual backdrop. We assess our method on four widely used language modeling datasets, demonstrating superior performance compared to all baseline methods, particularly with a lower budget ratio.
Abstract（参考訳）: 大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、自動回帰生成における冗長な計算を削減する。しかし、KVキャッシュサイズは世代毎に線形に増加し、特に長いテキストではメモリ使用量が過剰になる。ほとんどのKVキャッシュ圧縮手法は、固定キャッシュサイズを維持するために重要でないKVペアを排除し、生成時にトークンが恒久的に失われる。しかし特異値分解は、 \textit{values} が \textit{keys} のように強い低ランク性を示していないことを示しており、より冗長な \textit{keys} の分布とは対照的に、情報はより均一に \textit{values} に分散されていることを示唆している。したがって、 \textit{keys} と \textit{values} の両方を除外するメソッドは、決定的な情報を失い、コンテキストの整合性を損なう危険性があり、最終的に出力品質が低下する。この問題に対処するために、WeightedKVを提案する。これは、あまり重要でないトークンの \textit{keys} を破棄し、平均アテンションスコアで重み付けされた凸組み合わせにより、それらの \textit{values} を隣接するトークンにマージする、新しい、トレーニング不要なアプローチである。このように、保持された \textit{keys} は生成プロセスを導くアンカーとして機能し、マージされた \textit{values} はリッチなコンテキスト背景を提供する。提案手法は,広く使用されている4つの言語モデリングデータセットを用いて評価し,特に予算率の低いベースライン手法と比較して優れた性能を示す。

関連論文リスト

ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
KeepKV: Eliminating Output Perturbation in KV Cache Compression for Efficient LLMs Inference [16.53643930310808]
KeepKVは、厳しいメモリ制約下で性能を保ちながら出力摂動を排除するために設計された、新しい適応KVキャッシュマージ手法である。 KeepKVはメモリ使用量を大幅に削減し、推論スループットを2倍以上に向上し、10%のKVキャッシュ予算でも優れた生成品質を維持している。
論文参考訳（メタデータ） (2025-04-14T06:58:00Z)
SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching [9.617322424513317]
SentenceKVは、セマンティックコヒーレンスを保持しながら推論効率を向上させるために設計された、新しいKVキャッシュアプローチである。本研究では,SentenceKVがモデル精度を損なうことなく,効率とメモリ使用量の両方において最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-01T17:08:57Z)
Rethinking Key-Value Cache Compression Techniques for Large Language Model Serving [23.2180736755494]
キーバリューキャッシュ(textttKV texttcache)圧縮は、LLM(Large Language Model)サービスを最適化するための有望なテクニックとして登場した。主にtextttKV textttcache のメモリ消費を削減し、計算コストを削減する。多くの圧縮アルゴリズムが開発されているが、本番環境での応用はまだ一般的ではない。
論文参考訳（メタデータ） (2025-03-31T12:23:31Z)
CODA: Repurposing Continuous VAEs for Discrete Tokenization [52.58960429582813]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文参考訳（メタデータ） (2025-03-22T12:59:00Z)
Dialogue Without Limits: Constant-Sized KV Caches for Extended Responses in LLMs [6.222287867011644]
精度を保ちながら一定サイズのKVキャッシュを維持する推論時間手法であるMorphKVを提案する。保持や損失圧縮とは異なり、MorphKVは最近のトークンの注意パターンによってガイドされる軽量更新を通じてKVキャッシュを反復的に洗練する。我々の研究では、52.9$%のメモリセーブと18.2$%の精度が、最先端の先行研究と比較して高いことを示している。
論文参考訳（メタデータ） (2025-03-02T18:12:50Z)
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [28.96662510838151]
セマンティックチャンクを基本圧縮単位として扱うことにより,KVキャッシュの圧縮を再現するChunkKVを提案する。このアプローチは完全な言語構造と文脈整合性を保持し、攻撃的な圧縮の下でも本質的な意味が維持されることを保証する。 ChunkKVは、同じ圧縮比を維持しながら8.7%の精度で最先端の手法より優れている。
論文参考訳（メタデータ） (2025-02-01T03:49:47Z)
TreeKV: Smooth Key-Value Cache Compression with Tree Structures [19.06842704338332]
TreeKVは、スムーズなキャッシュ圧縮のためにツリー構造を利用するトレーニング不要の手法である。 PG19とOpenWebText2の言語モデリングタスクのベースラインモデルを一貫して上回っている。
論文参考訳（メタデータ） (2025-01-09T06:00:27Z)
CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。 CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文参考訳（メタデータ） (2024-12-16T13:01:53Z)
Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
textscPoDはトークンの重要度に応じてメモリを割り当てる。 textscPoDは、パフォーマンスを損なうことなく、KVキャッシュメモリ使用量を最大35%削減する。
論文参考訳（メタデータ） (2024-12-03T08:29:27Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
Finch: Prompt-guided Key-Value Cache Compression [9.260624506794226]
本稿では,事前学習した自己意図の重みを生かして,入力コンテキストを圧縮する新しい手法Finchを提案する。本提案では,高圧縮(最大93倍)のモデルでも,微調整を必要とせずにセマンティックな整合性を保ちながら大きな入力を消費することができる。
論文参考訳（メタデータ） (2024-07-31T21:33:56Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文参考訳（メタデータ） (2024-06-17T11:35:16Z)
Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文参考訳（メタデータ） (2024-05-21T08:35:10Z)
Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文参考訳（メタデータ） (2024-03-14T02:42:42Z)
Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference [78.65321721142624]
我々はキー値(KV)キャッシュによって課されるメモリボトルネックに焦点を当てる。既存のKVキャッシュ手法は、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることでこの問題に対処する。本稿では,固定サイズキャッシュと退避型キャッシュを簡易に統合したLESSを提案する。
論文参考訳（メタデータ） (2024-02-14T18:54:56Z)
On the Efficacy of Eviction Policy for Key-Value Constrained Generative Language Model Inference [40.789027180025286]
大規模言語モデル(LLM)は、リソース制約のある環境でのデプロイに特に費用がかかる。本稿では,時間的注意スコアとロバストネス測定に基づく堅牢なキャッシュ省略ポリシーであるRoCoを紹介する。ユーザフレンドリーなキー値制約付き生成推論専用の汎用ソフトウェアパッケージであるEasyKVをリリースする。
論文参考訳（メタデータ） (2024-02-09T09:20:59Z)
SubGen: Token Generation in Sublinear Time and Memory [48.35076900702408]
大規模言語モデル(LLM)はトークン生成に広範なメモリ要件を持つ。本研究では,KVキャッシュの効率的な圧縮手法の開発に焦点をあてる。我々は,キートークンにオンラインクラスタリングを導入し,値に$ell$をサンプリングする,サブ線形複雑性を持つ新しいキャッシング手法を考案した。このアルゴリズムは、サブリニアメモリフットプリントとサブリニアタイムの複雑さを保証するだけでなく、我々のアプローチに厳密なエラーを課す。
論文参考訳（メタデータ） (2024-02-08T22:17:40Z)
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文参考訳（メタデータ） (2023-10-03T05:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。