Fugu-MT 論文翻訳(概要): RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression

論文の概要: RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression

arxiv url: http://arxiv.org/abs/2502.14051v1
Date: Wed, 19 Feb 2025 19:12:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.384711
Title: RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression
Title（参考訳）: RocketKV: 2段階KVキャッシュ圧縮による長期LLM推論の高速化
Authors: Payman Behnam, Yaosheng Fu, Ritchie Zhao, Po-An Tsai, Zhiding Yu, Alexey Tumanov,
Abstract要約: RocketKVは、デコードフェーズにおけるKVキャッシュのメモリ帯域幅とキャパシティ要求の両方を削減するために設計された、トレーニング不要なKVキャッシュ圧縮戦略である。 RocketKVは、NVIDIA H100 GPU上のデコードフェーズで最大31%のピークメモリ削減とともに、エンドツーエンドのスピードアップを最大3$times$で提供することを示す。
参考スコア（独自算出の注目度）: 25.190765258589707
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based Large Language Models rely critically on KV cache to efficiently handle extended contexts during the decode phase. Yet, the size of the KV cache grows proportionally with the input length, burdening both memory bandwidth and capacity as decoding progresses. To address this challenge, we present RocketKV, a training-free KV cache compression strategy designed specifically to reduce both memory bandwidth and capacity demand of KV cache during the decode phase. RocketKV contains two consecutive stages. In the first stage, it performs coarse-grain KV cache eviction on the input sequence tokens with SnapKV++, a method improved upon SnapKV by introducing adaptive pooling size and full compatibility with grouped-query attention. In the second stage, it adopts a hybrid attention method to conduct fine-grain top-k sparse attention, approximating the attention scores by leveraging both head and sequence dimensional reductions. Combining these two stages, RocketKV achieves significant KV cache fetching bandwidth and storage savings while maintaining comparable accuracy to full KV cache attention. We show that RocketKV provides end-to-end speedup by up to 3$\times$ as well as peak memory reduction by up to 31% in the decode phase on an NVIDIA H100 GPU compared to the full KV cache baseline, while achieving negligible accuracy loss on a variety of long-context tasks.
Abstract（参考訳）: トランスフォーマーベースの大規模言語モデルは、デコードフェーズ中に拡張コンテキストを効率的に処理するために、KVキャッシュに批判的に依存する。しかし、KVキャッシュのサイズは入力長に比例して増加し、復号化が進むにつれてメモリ帯域幅と容量の両方を負担する。この課題に対処するために、RocketKVは、デコードフェーズにおけるKVキャッシュのメモリ帯域幅とキャパシティ要求の両方を削減するために設計された、トレーニング不要なKVキャッシュ圧縮戦略である。ロケットKVは2段目を含む。第一段階では、SnapKV++を用いて入力シーケンストークン上で粗粒KVキャッシュの消去を行い、適応的なプーリングサイズとグループクエリアテンションとの完全な互換性を導入し、SnapKVで改善した。第2段階では、頭部とシーケンス次元の縮小を利用して注目スコアを近似し、微粒のトップクスパースアテンションを行うハイブリッドアテンション手法を採用する。これら2つのステージを組み合わせることで、RocketKVは、KVキャッシュのフルアテンションに匹敵する精度を維持しながら、大きなKVキャッシュフェッチの帯域幅とストレージの節約を達成する。我々は、RocketKVが最大3$\times$のエンドツーエンドスピードアップと、NVIDIA H100 GPUのデコードフェーズにおける最大31%のピークメモリ削減を実現し、さまざまな長時間コンテキストタスクにおいて無視できない精度の損失を達成していることを示す。

関連論文リスト

DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。これは、残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしそうにない場合に、注意に基づくメトリクスを信号として、プルーニングプロセスを停止させる。提案手法は,メモリ空間を最適化するだけでなく,既存の手法に比べて推論時間を短縮する。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache [67.84112700032007]
大きな言語モデル(LLM)は、長いコンテキスト設定のためにエッジデバイスにデプロイされることが増えている。これらのシナリオでは、キーバリュー(KV)キャッシュがGPUメモリとレイテンシの両方において主要なボトルネックとなっている。そこで本研究では,ターゲットモデルのアーキテクチャを共有するが,階層的な4ビット量子化KVキャッシュと4ビット量子化重みを併用して高速化を行う,新たな自己推論型デコーディングフレームワークであるQuantSpecを提案する。
論文参考訳（メタデータ） (2025-02-05T20:43:48Z)
FastKV: KV Cache Compression for Fast Long-Context Processing with Token-Selective Propagation [4.856070170902535]
大きな言語モデル(LLM)は、長いコンテキストシーケンスを扱うのに優れている。コンテキスト情報を格納するために、かなりのキーバリュー(KV)キャッシュが必要である。 FastKVは、長いコンテキストシーケンスのレイテンシを高めるために設計されたKVキャッシュ圧縮方式である。
論文参考訳（メタデータ） (2025-02-03T05:25:09Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
VL-Cache: Sparsity and Modality-Aware KV Cache Compression for Vision-Language Model Inference Acceleration [7.463830743649754]
VLM(Vision-Language Models)は、多目的なタスクセットにまたがる印象的なパフォーマンスを実証している。キーバリュー(KV)キャッシュは、画像やビデオなどの長い視覚的コンテキストをエンコードする。既存のKVキャッシュ圧縮手法は大規模言語モデル(LLM)に有効である VLM推論の高速化に適した新しいKVキャッシュ圧縮レシピを提案する。
論文参考訳（メタデータ） (2024-10-29T20:04:34Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
Lossless KV Cache Compression to 2% [22.98828332096935]
この研究は、KVキャッシュを元のサイズの2%未満に圧縮することを目的とした、新しいアーキテクチャであるCLLA(Cross-Layer Latent Attention)を導入している。 CLLAは、アテンションヘッド/ディメンション低減、レイヤ共有、量子化技術を結合的なフレームワークに統合する。
論文参考訳（メタデータ） (2024-10-20T02:17:35Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
UNComp: Uncertainty-Aware Long-Context Compressor for Efficient Large Language Model Inference [38.11539884622708]
UNCompは、隠れた状態とKVキャッシュの両方を適応的に圧縮する不確実性対応圧縮スキームである。本手法は,プリフィル段階で1.6倍の高速化を実現し,KVキャッシュを元のサイズの4.74%に削減する。注目すべきは、ニードル・イン・ア・ヘイスタックのタスクでは、UNCompは元のサイズの9.38%に圧縮された場合でも、フルサイズのKVキャッシュより優れていることである。
論文参考訳（メタデータ） (2024-10-04T02:32:36Z)
CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。 CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文参考訳（メタデータ） (2024-09-16T17:36:50Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。 LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文参考訳（メタデータ） (2024-06-08T01:35:11Z)
PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [53.08975547824068]
本研究では,大規模言語モデル(LLM)内の注意に基づく情報フローが,長期的文脈処理のための顕著なパターンによって集約されるかどうかを検討する。観測の結果,LLMは下層に広く注意が散らばっているピラミッド情報ファンリングを通じて情報を集約することがわかった。これらの知見に触発され、我々は新しい効率的なKVキャッシュ圧縮法であるPraamid KVを開発した。
論文参考訳（メタデータ） (2024-06-04T07:51:30Z)
Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文参考訳（メタデータ） (2023-10-03T05:17:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。