Fugu-MT 論文翻訳(概要): DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance

論文の概要: DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance

arxiv url: http://arxiv.org/abs/2502.16886v1
Date: Mon, 24 Feb 2025 06:33:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.436646
Title: DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance
Title（参考訳）: DBudgetKV: KVキャッシュ圧縮における動的予算
Authors: Xuanfan Ni, Liyan Xu, Chenyang Lyu, Longyue Wang, Mo Yu, Lemao Liu, Fandong Meng, Jie Zhou, Piji Li,
Abstract要約: 我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
参考スコア（独自算出の注目度）: 125.81664663201282
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To alleviate memory burden during inference of large language models (LLMs), numerous studies have focused on compressing the KV cache by exploring aspects such as attention sparsity. However, these techniques often require a pre-defined cache budget; as the optimal budget varies with different input lengths and task types, it limits their practical deployment accepting open-domain instructions. To address this limitation, we propose a new KV cache compression objective: to always ensure the full-cache performance regardless of specific inputs, while maximizing KV cache pruning as much as possible. To achieve this goal, we introduce a novel KV cache compression method dubbed DBudgetKV, which features an attention-based metric to signal when the remaining KV cache is unlikely to match the full-cache performance, then halting the pruning process. Empirical evaluation spanning diverse context lengths, task types, and model sizes suggests that our method achieves lossless KV pruning effectively and robustly, exceeding 25% compression ratio on average. Furthermore, our method is easy to integrate within LLM inference, not only optimizing memory space, but also showing reduced inference time compared to existing methods.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論におけるメモリ負荷を軽減するため,注目度などの側面を探索することにより,KVキャッシュの圧縮に多くの研究が注がれている。しかし、これらの技術は、しばしば事前に定義されたキャッシュ予算を必要とし、最適な予算は入力の長さやタスクタイプによって異なるため、オープンドメイン命令を受け入れる実際のデプロイメントを制限する。この制限に対処するため,我々は,KVキャッシュプルーニングを極力最大化しつつ,特定の入力によらず常にフルキャッシュ性能を確保するため,新しいKVキャッシュ圧縮目標を提案する。この目的を達成するために、DBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を導入し、残りのKVキャッシュがフルキャッシュ性能にマッチしそうにない場合に、注意に基づくメトリクスを信号に特徴付ける。各種コンテキスト長,タスクタイプ,モデルサイズにまたがる実験的な評価から,提案手法は効率よく,かつ堅牢に,平均25%以上の圧縮比を達成できることが示唆された。さらに,本手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮するので,LLM推論に簡単に組み込むことができる。

関連論文リスト

ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
WindowKV: Task-Adaptive Group-Wise KV Cache Window Selection for Efficient LLM Inference [9.572076809796448]
タスク適応型KVキャッシュウィンドウ選択手法であるWindowKVを提案する。 WindowKVは、元のKVキャッシュの12%しか使用せず、完全なKVキャッシュ保持に匹敵する性能を維持していることを示す。提案手法は,Needle-in-a-Haystack評価における最先端の結果も達成し,その有効性と堅牢性を強調した。
論文参考訳（メタデータ） (2025-03-23T03:36:52Z)
BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference [6.222836318380985]
BaKlaVaは、モデル全体で個々のKVキャッシュに対して最適なメモリを割り当てる手法である。 LLaMA-3-8BモデルとQwen2.5-7Bモデルについて検討した。
論文参考訳（メタデータ） (2025-02-18T04:08:29Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
ZigZagkv: Dynamic KV Cache Compression for Long-context Modeling based on Layer Uncertainty [35.947737679664016]
推論長が増加するにつれて、KVキャッシュの増加はメモリ外問題を引き起こす可能性がある。本稿では,各層に予算規模を割り当てるために,層不確実性を利用した簡易かつ効果的なKVキャッシュ圧縮手法を提案する。実験の結果,提案手法はフルKV推定と比較して,KVキャッシュのメモリ使用量を$sim$20%に削減できることがわかった。
論文参考訳（メタデータ） (2024-12-12T07:52:56Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
Lossless KV Cache Compression to 2% [22.98828332096935]
この研究は、KVキャッシュを元のサイズの2%未満に圧縮することを目的とした、新しいアーキテクチャであるCLLA(Cross-Layer Latent Attention)を導入している。 CLLAは、アテンションヘッド/ディメンション低減、レイヤ共有、量子化技術を結合的なフレームワークに統合する。
論文参考訳（メタデータ） (2024-10-20T02:17:35Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。 CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文参考訳（メタデータ） (2024-09-16T17:36:50Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。