論文の概要: Fast KV Compaction via Attention Matching
- arxiv url: http://arxiv.org/abs/2602.16284v1
- Date: Wed, 18 Feb 2026 09:06:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.554645
- Title: Fast KV Compaction via Attention Matching
- Title(参考訳): 注意マッチングによる高速KV圧縮
- Authors: Adam Zweiger, Xinghong Fu, Han Guo, Yoon Kim,
- Abstract要約: この研究は、注意マッチングによる潜在空間における高速な文脈コンパクト化のアプローチを記述する。
この定式化は自然に単純な部分プロブレムに分解され、その一部は効率的な閉形式解を持つ。
- 参考スコア(独自算出の注目度): 36.70038515897491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling language models to long contexts is often bottlenecked by the size of the key-value (KV) cache. In deployed settings, long contexts are typically managed through compaction in token space via summarization. However, summarization can be highly lossy, substantially harming downstream performance. Recent work on Cartridges has shown that it is possible to train highly compact KV caches in latent space that closely match full-context performance, but at the cost of slow and expensive end-to-end optimization. This work describes an approach for fast context compaction in latent space through Attention Matching, which constructs compact keys and values to reproduce attention outputs and preserve attention mass at a per-KV-head level. We show that this formulation naturally decomposes into simple subproblems, some of which admit efficient closed-form solutions. Within this framework, we develop a family of methods that significantly push the Pareto frontier of compaction time versus quality, achieving up to 50x compaction in seconds on some datasets with little quality loss.
- Abstract(参考訳): 長いコンテキストへの言語モデルのスケーリングは、キー値(KV)キャッシュのサイズによってボトルネックになることが多い。
配置設定では、長いコンテキストは通常、要約を通じてトークン空間のコンパクト化によって管理される。
しかし、要約は非常に損失が大きいため、下流のパフォーマンスを著しく損なう。
Cartridgesの最近の研究は、高コンパクトなKVキャッシュを遅延空間でトレーニングすることができ、フルコンテキストのパフォーマンスと密に一致しているが、遅くて高価なエンドツーエンド最適化のコストがかかることを示した。
本研究は,注目出力を再現し,注目質量をKV単位のレベルで保持するために,コンパクトなキーと値を構成するアテンションマッチング(Atention Matching)による潜在空間の高速なコンテクスト圧縮のアプローチについて述べる。
この定式化は自然に単純な部分プロブレムに分解され、その一部は効率的な閉形式解を持つ。
このフレームワーク内では、パレートの圧縮時間と品質のフロンティアを著しく押し上げ、品質損失の少ないデータセットで最大50倍の圧縮を達成できる手法のファミリーを開発する。
関連論文リスト
- G-KV: Decoding-Time KV Cache Eviction with Global Attention [57.47409249054187]
大規模言語モデル(LLM)は複雑なタスクに優れるが、長いシーケンス長のため、計算とメモリの重大な課題に遭遇する。
KVキャッシュ圧縮は推論の効率を大幅に向上させる効果的な手法として登場した。
本稿では,グローバルスコアリング機構を用いたKVキャッシュ消去手法であるG-KVを提案する。
論文 参考訳(メタデータ) (2025-11-29T14:21:33Z) - OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。
OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。
オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文 参考訳(メタデータ) (2025-09-25T21:42:27Z) - Compactor: Calibrated Query-Agnostic KV Cache Compression with Approximate Leverage Scores [37.41699761967978]
KVキャッシュは、しばしば現実世界のデプロイメントにおいて、主要なリソースボトルネックである。
パラメータフリーでクエリに依存しないKV圧縮戦略であるCompactorを提案する。
本研究では,コンパクタがLongbench上でのフルKV性能を実現するとともに,KVメモリの負荷を平均63%低減することを示す。
論文 参考訳(メタデータ) (2025-07-10T20:03:35Z) - TailorKV: A Hybrid Framework for Long-Context Inference via Tailored KV Cache Optimization [21.229296254354878]
生成型大規模言語モデル(LLM)におけるキーバリューキャッシュは、かなりのメモリオーバーヘッドをもたらす。
既存の作業は、KVキャッシュをオフロードまたは圧縮することで、この負担を軽減する。
本稿では,量子化とオフロードをシームレスに統合するハイブリッド圧縮手法であるTailorKVを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:00:04Z) - DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance [125.81664663201282]
我々はDBudgetKVと呼ばれる新しいKVキャッシュ圧縮手法を提案する。
残りのKVキャッシュがフルキャッシュのパフォーマンスにマッチしない場合、注意ベースのメトリクスが特徴である。
提案手法は, 平均圧縮率25%を超え, 無損失KVプルーニングを効果的かつ堅牢に実現している。
論文 参考訳(メタデータ) (2025-02-24T06:33:39Z) - LoCoCo: Dropping In Convolutions for Long Context Compression [77.26610232994508]
本稿では,Long Context Compression(LoCoCo)のための新しいアプローチであるDropping In Convolutionsを提案する。
LoCoCoは、固定サイズキーバリュー(KV)キャッシュのみを使用し、推論と微調整の両方のステージで効率を向上させることができる。
論文 参考訳(メタデータ) (2024-06-08T01:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。