Fugu-MT 論文翻訳(概要): KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction

論文の概要: KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction

arxiv url: http://arxiv.org/abs/2512.17917v1
Date: Mon, 01 Dec 2025 03:59:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-29 00:37:57.047722
Title: KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction
Title（参考訳）: KVReviver: スケッチベースのトークン再構成による可逆KVキャッシュ圧縮
Authors: Aomufei Yuan, Zhiming Wang, Ruijie Miao, Dayu Wang, Yuxuan Tian, Zihan Wang, Yebo Peng, Yuhan Wu, Bairen Yi, Xin Liu, Tong Yang,
Abstract要約: スケッチアルゴリズムに基づく可逆的なKVキャッシュ圧縮手法であるKVReviverを提案する。 2kのコンテキストでは、同じエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としない。 32kのコンテキストでは、同等または同等の精度の2%の精度の損失を達成する。
参考スコア（独自算出の注目度）: 20.53279247581787
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: As the context length of current large language models (LLMs) rapidly increases, the memory demand for the Key-Value (KV) cache is becoming a bottleneck for LLM deployment and batch processing. Traditional KV cache compression methods typically involve permanently evicting or irreversibly merging "less important" tokens with low attention scores. This approach results in the unrecoverable loss of token information, which we call Contextual Amnesia, significantly degrading the model's information retrieval capability. To address this issue, we propose KVReviver, a reversible KV cache compression method based on the sketch algorithm. This method allows reconstructing compressed tokens from an additional data structure, thus enabling full-scale computation within limited memory. Experiments showed that in 2k-length contexts, it requires only 10% of KV Cache budget while maintaining identical end-to-end inference accuracy. For 32k-length contexts, it achieves equivalent or comparable accuracy ~2% accuracy loss) using merely 25% of KV Cache budget.
Abstract（参考訳）: 現在の大規模言語モデル(LLM)のコンテキスト長が急速に増加するにつれて、キーバリュー(KV)キャッシュのメモリ需要は、LLMデプロイメントとバッチ処理のボトルネックになりつつある。従来のKVキャッシュ圧縮法は、通常、注意スコアの低い「重要でない」トークンを永久に排除または不可逆的にマージする。このアプローチは、私たちがContextual Amnesiaと呼ぶトークン情報の発見不可能な損失をもたらし、モデルの情報検索能力を著しく低下させます。そこで本研究では,スケッチアルゴリズムに基づく可逆KVキャッシュ圧縮手法であるKVReviverを提案する。この方法は、追加のデータ構造から圧縮されたトークンを再構成することができ、限られたメモリ内でのフルスケールの計算を可能にする。実験の結果、2kのコンテキストでは、同一のエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としないことがわかった。 32kのコンテキストでは、KVキャッシュ予算の25%しか使用せず、同等または同等の精度(約2%の精度の損失)を達成する。

関連論文リスト

SparK: Query-Aware Unstructured Sparsity with Recoverable KV Cache Channel Pruning [33.149133156465474]
大規模言語モデルにおける長文推論は、KVキャッシュのボトルネックによってますます制限される。チャネルレベルでKVをプルーニングすることで、非構造化空間を適用できる訓練不要なプラグアンドプレイ手法であるSPARKを提案する。 SPARKはチャネルレベルの冗長性を低減し、同じメモリ予算内で長いシーケンスの処理を可能にする。
論文参考訳（メタデータ） (2025-08-21T03:48:28Z)
Sparse Attention across Multiple-context KV Cache [8.236266965773465]
推論効率を改善するために、履歴キーバリュー(KV)キャッシュを再利用することは、主流のアプローチとなっている。近年の進歩は、KVキャッシュを選択できるスパースアテンション機構によってスループットをさらに向上させる。本論文では,マルチコンテキストKVキャッシュにおける注意スペーシフィケーションの最初の調査であるSamKVについて述べる。
論文参考訳（メタデータ） (2025-08-06T02:53:14Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [69.57122277845293]
ReCalKVは,キーと値の調整を施した低ランクKVキャッシュ圧縮手法である。キーズでは、構造的に類似した頭部をグループにクラスタリングし、より正確な低ランク近似を可能にするSimisity aware Recontext (HSR)を提案する。本稿では,オフラインヘッドワイド値(OVC)を提案する。これはトレーニングなしでキャリブレーションデータを用いて,効率的に値予測行列を校正する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction [37.97434606840326]
トランスフォーマーベースの大規模言語モデル(LLM)は、推論中にキー値(KV)ペアとしてキャッシュコンテキストを持つ。コンテキストの長さが大きくなると、KVキャッシュのサイズが拡大し、メモリオーバーヘッドが大きくなり、注意の遅延が増大する。本稿では,クエリに依存しないKVキャッシュ消去手法であるKVzipを紹介する。
論文参考訳（メタデータ） (2025-05-29T13:05:47Z)
DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文参考訳（メタデータ） (2025-02-24T06:33:39Z)
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference [61.412894960600205]
大きな言語モデル(LLM)は、長いテキストを処理する際に大きなGPUメモリを必要とする。 ChunkKVは、セマンティックチャンクを基本的な圧縮単位として扱うことで、KVキャッシュ圧縮を再定義する。結果: ChunkKVは最先端の手法を最大8.7%精度で上回る。
論文参考訳（メタデータ） (2025-02-01T03:49:47Z)
More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。 KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文参考訳（メタデータ） (2024-12-17T09:20:31Z)
ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文参考訳（メタデータ） (2024-12-04T10:58:27Z)
KVSharer: Efficient Inference via Layer-Wise Dissimilar KV Cache Sharing [58.29726147780976]
我々は,層間をKVキャッシュで共有し,層間圧縮を実現する,textit KVSharerと呼ばれるプラグアンドプレイ方式を提案する。実験の結果、textit KVSharerはKVキャッシュの計算を30%削減し、メモリ消費を削減できることがわかった。我々は,textit KVSharerが既存の層内KVキャッシュ圧縮手法と互換性があることを検証する。
論文参考訳（メタデータ） (2024-10-24T08:06:41Z)
CSKV: Training-Efficient Channel Shrinking for KV Cache in Long-Context Scenarios [13.144156413032896]
KVキャッシュ圧縮のための訓練効率の高いチャネルシンキング技術であるCSKVを紹介する。 CSKVは、モデル長文機能を維持しながら、KVキャッシュのメモリオーバーヘッドを80%削減できることを示す。我々の手法は量子化とシームレスに組み合わせることでメモリオーバーヘッドをさらに低減し、最大95%の圧縮比を達成することができる。
論文参考訳（メタデータ） (2024-09-16T17:36:50Z)
KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。 KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文参考訳（メタデータ） (2024-02-05T06:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。