Fugu-MT 論文翻訳(概要): BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference

論文の概要: BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference

arxiv url: http://arxiv.org/abs/2502.13176v2
Date: Mon, 24 Feb 2025 01:28:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 13:51:10.483211
Title: BaKlaVa -- Budgeted Allocation of KV cache for Long-context Inference
Title（参考訳）: BaKlaVa -- 長文推論のためのKVキャッシュの予算配分
Authors: Ahmed Burak Gulhan, Krishna Teja Chitty-Venkata, Murali Emani, Mahmut Kandemir, Venkatram Vishwanath,
Abstract要約: BaKlaVaは、モデル全体で個々のKVキャッシュに対して最適なメモリを割り当てる手法である。 LLaMA-3-8BモデルとQwen2.5-7Bモデルについて検討した。
参考スコア（独自算出の注目度）: 6.222836318380985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In Large Language Model (LLM) inference, Key-Value (KV) caches (KV-caches) are essential for reducing time complexity. However, they result in a linear increase in GPU memory as the context length grows. While recent work explores KV-cache eviction and compression policies to reduce memory usage, they often consider uniform KV-caches across all attention heads, leading to suboptimal performance. We introduce BaKlaVa, a method to allocate optimal memory for individual KV-caches across the model by estimating the importance of each KV-cache. Our empirical analysis demonstrates that not all KV-caches are equally critical for LLM performance. Using a one-time profiling approach, BaKlaVa assigns optimal memory budgets to each KV-cache. We evaluated our method on LLaMA-3-8B, and Qwen2.5-7B models, achieving up to a 70\% compression ratio while keeping baseline performance and delivering up to an order-of-magnitude accuracy improvement at higher compression levels.
Abstract（参考訳）: LLM(Large Language Model)推論では、キーバリュー(KV)キャッシュ(KV-caches)が時間複雑性の低減に不可欠である。しかし、コンテキスト長が大きくなるにつれて、GPUメモリは線形的に増加する。最近の研究は、メモリ使用量を減らすためにKVキャッシュの排除と圧縮ポリシーを探求しているが、彼らはしばしばすべての注意ヘッドに均一なKVキャッシュを考慮し、最適以下のパフォーマンスをもたらす。本稿では,各KVキャッシュの重要性を推定し,各KVキャッシュに対して最適なメモリを割り当てる手法であるBaKlaVaを紹介する。我々の経験的分析は、全てのKVカッチがLLM性能に等しく重要でないことを示している。 BaKlaVaは1回のプロファイリングアプローチを使用して、各KVキャッシュに最適なメモリ予算を割り当てる。我々は,LLaMA-3-8BおよびQwen2.5-7Bモデルを用いて,ベースライン性能を保ちながら圧縮率を最大70 %まで向上し,高圧縮レベルでのオーダー・オブ・マグニチュード精度の向上を実現した。

関連論文リスト

HCAttention: Extreme KV Cache Compression via Heterogeneous Attention Computing for LLMs [13.013668526921778]
既存のKVキャッシュ圧縮手法は、メモリが85%以上削減されたときに顕著な性能劣化を示す。我々は、鍵量子化、値オフロード、動的KV消去を統合した異種アテンションフレームワークであるHCAttentionを提案する。また,LongBenchベンチマークを用いて,KVキャッシュメモリのフットプリントを25%に縮めながら,本手法が完全アテンションモデルの精度を維持することを示した。
論文参考訳（メタデータ） (2025-07-26T06:43:14Z)
R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。 R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文参考訳（メタデータ） (2025-05-30T02:03:24Z)
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.489744618357655]
トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文参考訳（メタデータ） (2025-05-29T13:05:47Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文参考訳（メタデータ） (2024-12-13T17:59:52Z)
ZigZagkv: Dynamic KV Cache Compression for Long-context Modeling based on Layer Uncertainty [35.947737679664016]
推論長が増加するにつれて、KVキャッシュの増加はメモリ外問題を引き起こす可能性がある。本稿では,各層に予算規模を割り当てるために,層不確実性を利用した簡易かつ効果的なKVキャッシュ圧縮手法を提案する。実験の結果,提案手法はフルKV推定と比較して,KVキャッシュのメモリ使用量を$sim$20%に削減できることがわかった。
論文参考訳（メタデータ） (2024-12-12T07:52:56Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
KV-Compress: Paged KV-Cache Compression with Variable Compression Rates per Attention Head [0.8158530638728501]
そこで我々は,PagedAttentionフレームワーク内で連続KVブロックを除去する新しい圧縮手法であるKV-Compressを紹介する。本手法は,Mistral-7B-Instruct-v0.2およびLlama-3.1-8B-InstructのLongBenchにおける圧縮KVの総数を4倍に減らしながら,最先端の性能を実現する。 Llama-3.1-8B-InstructとLlama-3.1-70B-Instruct-FP8の評価は、圧縮速度を最大8倍まで達成し、性能に悪影響を及ぼすことなく、フルキャッシュ性能の90%以上を維持しながら、最大64倍まで向上する。
論文参考訳（メタデータ） (2024-09-30T19:09:13Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文参考訳（メタデータ） (2024-06-17T11:35:16Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget [29.208289711639853]
LLM(Large Language Model)のキーバリューキャッシュを最適化することは、推論コストの削減に不可欠であると考えられている。既存のKV-cache圧縮アルゴリズムのほとんどは全ての層を等しく扱い、各層に同じKV予算を割り当てている。注意層の重要性を同定することにより、KV-cacheを2次元から共同で最適化できることが判明した。
論文参考訳（メタデータ） (2024-04-07T03:08:14Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。