論文の概要: Transactional Attention: Semantic Sponsorship for KV-Cache Retention
- arxiv url: http://arxiv.org/abs/2604.11288v1
- Date: Mon, 13 Apr 2026 10:51:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.480445
- Title: Transactional Attention: Semantic Sponsorship for KV-Cache Retention
- Title(参考訳): トランザクションの注意: KVキャッシュ保持のための意味的なスポンサーシップ
- Authors: Abhinaba Basu,
- Abstract要約: K=16トークン(4Kコンテキストの0.4%)では、既存のKV-cache圧縮法はすべてクレデンシャル検索の0%を達成する。
構造的アンカーパターンが隣接した値を持つトークンを排除から保護するスポンサー機構であるトランザクション注意(TA)を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: At K=16 tokens (0.4% of a 4K context), every existing KV-cache compression method achieves 0% on credential retrieval. The failure mode is dormant tokens: credentials, API keys, and configuration values that receive near-zero attention but become essential at generation time. Because these tokens lack the statistical signals that eviction policies rely on, no method based on attention scores, reconstruction loss, or learned retention gates retains them. We introduce Transactional Attention (TA), a sponsorship mechanism in which structural anchor patterns (e.g., "key:", "password:") protect adjacent value-bearing tokens from eviction. TA achieves 100% credential retrieval at K=16 where six baselines (H2O, TOVA, SnapKV, StreamingLLM, PyramidKV, DynamicKV) achieve 0%, and sustains 100% accuracy across 200 function-calling trials. TA-Fast, an attention-free variant, reduces memory overhead by 52% and is compatible with SDPA and FlashAttention. TA is orthogonal to existing compression methods and adds less than 1% latency overhead.
- Abstract(参考訳): K=16トークン(4Kコンテキストの0.4%)では、既存のKV-cache圧縮法はすべてクレデンシャル検索の0%を達成する。
フェールモードは、認証情報、APIキー、ほぼゼロの注意を払っているが、世代毎に必須となる設定値といった、休眠トークンである。
これらのトークンには、排除ポリシーが依存する統計的な信号がないため、注意点、再建損失、学習された保持ゲートに基づく方法が保持されない。
トランザクショナルアテンション(TA)は、構造的アンカーパターン(例: "key:", "password:")が、隣接する値を持つトークンを排除から保護するスポンサー機構である。
TAはK=16で100%認証検索を行い、6つのベースライン(H2O, TOVA, SnapKV, StreamingLLM, PyramidKV, DynamicKV)が0%を獲得し、200の関数呼び出し試験で100%精度を維持できる。
注意のない亜種であるTA-Fastは、メモリオーバーヘッドを52%削減し、SDPAとFlashAttentionと互換性がある。
TAは既存の圧縮手法と直交し、1%以上の遅延オーバーヘッドを追加する。
関連論文リスト
- The Residual Stream Is All You Need: On the Redundancy of the KV Cache in Transformer Inference [3.378773775514883]
キー値(KV)キャッシュは、トランスフォーマー推論において必須の状態として広く扱われる。
各層におけるキーと値が残留ストリームの決定論的射影であることを証明する。
我々は、境界メモリ推論スキームであるKV-Directを用いて、この結果に基づいて構築する。
論文 参考訳(メタデータ) (2026-03-20T05:59:50Z) - FASA: Frequency-aware Sparse Attention [56.26881872333624]
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T06:09:06Z) - KVReviver: Reversible KV Cache Compression with Sketch-Based Token Reconstruction [20.53279247581787]
スケッチアルゴリズムに基づく可逆的なKVキャッシュ圧縮手法であるKVReviverを提案する。
2kのコンテキストでは、同じエンドツーエンドの推論精度を維持しながら、KVキャッシュの予算の10%しか必要としない。
32kのコンテキストでは、同等または同等の精度の2%の精度の損失を達成する。
論文 参考訳(メタデータ) (2025-12-01T03:59:20Z) - SparK: Query-Aware Unstructured Sparsity with Recoverable KV Cache Channel Pruning [33.149133156465474]
大規模言語モデルにおける長文推論は、KVキャッシュのボトルネックによってますます制限される。
チャネルレベルでKVをプルーニングすることで、非構造化空間を適用できる訓練不要なプラグアンドプレイ手法であるSPARKを提案する。
SPARKはチャネルレベルの冗長性を低減し、同じメモリ予算内で長いシーケンスの処理を可能にする。
論文 参考訳(メタデータ) (2025-08-21T03:48:28Z) - R-KV: Redundancy-aware KV Cache Compression for Reasoning Models [77.84539432982307]
共振モデル(R-KV)のための冗長性を考慮したKVキャッシュ圧縮を提案する。
R-KVはKVキャッシュの10%しか使用せず、完全なKVキャッシュ性能のほぼ100%を保っている。
驚くべきことに、R-KVは完全なKVキャッシュ性能の105%を達成し、KVキャッシュの16%を達成している。
論文 参考訳(メタデータ) (2025-05-30T02:03:24Z) - In-context KV-Cache Eviction for LLMs via Attention-Gate [12.732519329131392]
KVキャッシュ技術は、大規模言語モデル(LLM)の推論の標準となっている。
本稿では,Attention-Gateと呼ばれる軽量モジュールをモデルに注入することで,KVキャッシュの動的な消去ポリシーを実現する。
提案手法は複数のシナリオにまたがって実験的に評価され,冗長トークンの有効排除は効率を向上するだけでなく,性能も向上することを示した。
論文 参考訳(メタデータ) (2024-10-15T05:01:19Z) - PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling [38.732413451399]
ピラミッドKVは新規かつ効果的なKVキャッシュ圧縮法である。
提案手法は,KVキャッシュの12%しか保持せず,完全なKVキャッシュでモデルの性能と一致していることを示す。
Needle-in-a-Haystack実験では、Praamid KVは長文理解の維持において競合する手法より優れている。
論文 参考訳(メタデータ) (2024-06-04T07:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。