Fugu-MT 論文翻訳(概要): Not All Heads Matter: A Head-Level KV Cache Compression Method with Integrated Retrieval and Reasoning

論文の概要: Not All Heads Matter: A Head-Level KV Cache Compression Method with Integrated Retrieval and Reasoning

arxiv url: http://arxiv.org/abs/2410.19258v1
Date: Fri, 25 Oct 2024 02:22:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.246087
Title: Not All Heads Matter: A Head-Level KV Cache Compression Method with Integrated Retrieval and Reasoning
Title（参考訳）: すべての頭部が重要でない:統合検索と推論によるヘッドレベルKVキャッシュ圧縮法
Authors: Yu Fu, Zefan Cai, Abedelkadir Asi, Wayne Xiong, Yue Dong, Wen Xiao,
Abstract要約: キーバリューキャッシング(キーバリューキャッシング、英: Key-Value cache)は、大規模言語モデル(LLM)の計算効率を高めるための一般的な手法である。本稿では,新たな文脈推論能力推定手法であるヘッドレベルのKVキャッシュ圧縮手法であるヘッドKVとヘッドKV-R2を提案する。本手法は,文脈質問応答ベンチマークにおいて,全KVキャッシュの性能の97%を達成しつつ,KVキャッシュの1.5%しか保持しない。
参考スコア（独自算出の注目度）: 19.942402563256962
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Key-Value (KV) caching is a common technique to enhance the computational efficiency of Large Language Models (LLMs), but its memory overhead grows rapidly with input length. Prior work has shown that not all tokens are equally important for text generation, proposing layer-level KV cache compression to selectively retain key information. Recognizing the distinct roles of attention heads in generation, we propose HeadKV, a head-level KV cache compression method, and HeadKV-R2, which leverages a novel contextual reasoning ability estimation for compression. Our approach operates at the level of individual heads, estimating their importance for contextual QA tasks that require both retrieval and reasoning capabilities. Extensive experiments across diverse benchmarks (LongBench, LooGLE), model architectures (e.g., Llama-3-8B-Instruct, Mistral-7B-Instruct), and long-context abilities tests demonstrate that our head-level KV cache compression significantly outperforms strong baselines, particularly in low-resource settings (KV size = 64 & 128). Notably, our method retains just 1.5% of the KV cache while achieving 97% of the performance of the full KV cache on the contextual question answering benchmark.
Abstract（参考訳）: キーバリュー(KV)キャッシングは,Large Language Models(LLMs)の計算効率を高めるための一般的な手法であるが,メモリオーバーヘッドは入力長とともに急速に増大する。以前の研究では、すべてのトークンがテキスト生成に等しく重要であるわけではないことが示されており、キー情報を選択的に保持するために層レベルのKVキャッシュ圧縮が提案されている。本稿では,ヘッドレベルのKVキャッシュ圧縮手法であるHeadKVと,新しい文脈推論能力推定手法であるHeadKV-R2を提案する。提案手法は,検索能力と推論能力の両方を必要とする文脈的QAタスクにおいて重要度を推定する。様々なベンチマーク(LongBench、LooGLE)、モデルアーキテクチャ(例:Llama-3-8B-インストラクト、Mistral-7B-インストラクト)、長期コンテキスト能力テスト(例:Llama-3-8B-インストラクト、Mistral-7B-インストラクト)の広範な実験により、ヘッドレベルのKVキャッシュ圧縮は、特に低リソース設定(KVサイズ=64と128)において、強いベースラインを著しく上回ります。特に,本手法では,文脈質問応答ベンチマークにおいて,全KVキャッシュの性能の97%を達成しつつ,KVキャッシュの1.5%しか保持していない。

関連論文リスト

ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference [6.222836318380985]
BaKlaVaは、モデル全体で個々のKVキャッシュに対して最適なメモリを割り当てる手法である。 LLaMA-3-8BモデルとQwen2.5-7Bモデルについて検討した。
論文参考訳（メタデータ） (2025-02-18T04:08:29Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
EMS: Adaptive Evict-then-Merge Strategy for Head-wise KV Cache Compression Based on Global-Local Importance [44.14919492126948]
メモリオーバーヘッドが重要になるにつれて、KVキャッシュの効率的な圧縮が注目されている。我々は,これらの制限を克服すると同時に,極端な圧縮比下でのKVキャッシュ圧縮を向上するEMSを提案する。 EMSは最低の難易度を一貫して達成し、256のキャッシュ予算の下でLongBench上の4つのLLMで1.28ポイント以上改善し、Needdle-in-a-Haystackタスクのコンテキスト長の2%未満のキャッシュ予算で95%の検索精度を維持している。
論文参考訳（メタデータ） (2024-12-11T16:35:13Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
Lossless KV Cache Compression to 2% [22.98828332096935]
この研究は、KVキャッシュを元のサイズの2%未満に圧縮することを目的とした、新しいアーキテクチャであるCLLA(Cross-Layer Latent Attention)を導入している。 CLLAは、アテンションヘッド/ディメンション低減、レイヤ共有、量子化技術を結合的なフレームワークに統合する。
論文参考訳（メタデータ） (2024-10-20T02:17:35Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head [0.8158530638728501]
そこで我々は,PagedAttentionフレームワーク内で連続KVブロックを除去する新しい圧縮手法であるKV-Compressを紹介する。本手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchにおける圧縮KVの総数を4倍に減らしながら,最先端の性能を実現する。 Llama-3.1-8B-InstructとLlama-3.1-70B-Instruct-FP8の評価は、圧縮速度を最大8倍まで達成し、性能に悪影響を及ぼすことなく、フルキャッシュ性能の90%以上を維持しながら、最大64倍まで向上する。
論文参考訳（メタデータ） (2024-09-30T19:09:13Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文参考訳（メタデータ） (2024-06-17T11:35:16Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文参考訳（メタデータ） (2023-10-03T05:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。