論文の概要: Tensor Cache: Eviction-conditioned Associative Memory for Transformers
- arxiv url: http://arxiv.org/abs/2605.22884v1
- Date: Thu, 21 May 2026 00:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.021402
- Title: Tensor Cache: Eviction-conditioned Associative Memory for Transformers
- Title(参考訳): Tensor Cache: トランスフォーマーのエミュレーション条件付連想メモリ
- Authors: Kabir Swain, Sijie Han, Daniel Karl I. Weidele, Mauro Martino, Antonio Torralba,
- Abstract要約: キャッシュは、第1レベルのキャッシュ(L1)としてスライディングウインドウのソフトマックスの注意を、固定サイズの外積高速なメモリとして、ウィンドウから放出されるKVペアによって供給される第2レベルのキャッシュとする。
取り除かれたペアは、層ごとの行列に$A$に圧縮され、単一の行列乗算によって将来のクエリによって読み込まれる。
- 参考スコア(独自算出の注目度): 20.67103891489219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive Transformer KV caches grow linearly with context length; sliding-window caching bounds memory but discards evicted tokens entirely, so relevant evidence outside the window becomes inaccessible. We introduce \emph{Tensor Cache}, a two-level cache that pairs sliding-window softmax attention as a first-level cache (L1) with a fixed-size outer-product fast-weight memory as a second-level cache (L2) fed by KV pairs evicted from the window. Recent tokens remain in exact local attention; evicted pairs are compressed into a per-layer matrix $A$ and read by future queries through a single matrix multiplication, exploiting the linear-attention identity $q_t(k_i \otimes v_i)=\langle q_t,k_i\rangle v_i$. A learned scalar gate fuses the L1 and L2 outputs, and per-head decay and write-rate parameters are trained end-to-end. The outer-product memory and the read identity are well-known; our contribution is their use as an L2 cache fed exclusively by sliding-window evictions, plus identifying that the common chunked-mean training shortcut $A\!\leftarrow\!λA\!+\!η(\bar k\!\otimes\!\bar v)$ silently introduces $C^2{-}C$ spurious cross-token outer products per chunk, and closing the gap with a parallel weighted-sum scan equivalent to per-token writes within float32 epsilon. Across systems scaling, controlled associative recall, long-context language modeling, and memory-capacity diagnostics, Tensor Cache improves the memory--quality frontier over bounded-state baselines.
- Abstract(参考訳): 自動回帰トランスフォーマーKVキャッシュは、コンテキスト長とともに線形に成長する。スライディングウィンドウキャッシュはメモリをバウンドするが、取り除かれたトークンを完全に破棄するので、窓の外にある関連する証拠はアクセスできない。
ウィンドウから放出されるKVペアによって供給される第2のレベルキャッシュ(L2)として、固定サイズの外積高速メモリを備えた第1のレベルキャッシュ(L1)として、スライドウインドウのソフトマックスアテンションをペアリングする2レベルキャッシュである「emph{Tensor Cache}」を紹介した。
取り除かれたペアは、層ごとの行列$A$に圧縮され、1つの行列乗算を通して将来のクエリによって読み取られ、線形アテンションの同一性$q_t(k_i \otimes v_i)=\langle q_t,k_i\rangle v_i$を利用する。
学習されたスカラーゲートはL1とL2の出力を融合させ、ヘッド当たりの減衰と書き込みレートパラメータをエンドツーエンドに訓練する。
当社のコントリビューションは、スライディングウインドウのエビクションのみに供給されるL2キャッシュとしての使用と、一般的なチャンクアップ平均トレーニングショートカットが$A\!
\leftarrow\!
λA!
+\!
η(\bar k\!
\otimes\!
\bar v)$ サイレントに$C^2{-}C$ 突発的な外積をチャンク毎に導入し、float32 のエプシロン内でのトーケン書き込みに相当する平行重み付きサムスキャンでギャップを閉じる。
システムスケーリング、制御された連想リコール、長期コンテキスト言語モデリング、メモリ容量診断などを通じて、Tensor Cacheは境界状態ベースライン上のメモリ品質のフロンティアを改善している。
関連論文リスト
- Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs [26.951325519894525]
本稿では,軽量保持ゲートを介して各トークンの創出時の本質的な重要性を学習する手法を提案する。
我々は,特に低メモリ環境において,強い信念と学習可能な検索ベースラインを一貫して上回ることを示す。
一部の設定ではフルキャッシュモデルを超えており、選択的な保持が正規化の一形態として機能することを示している。
論文 参考訳(メタデータ) (2025-12-03T00:20:35Z) - Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction [72.27673320976933]
Diffusion Large Language Models (dLLMs) は推論と並列デコードにおけるブレークスルーを可能にする。
現在のキャッシュ技術は、フルレイヤ状態を保存することでデコーディングを加速するが、メモリ使用量を大幅に増加させる。
Sparse-dLLMは、動的キャッシュ消去とスパースアテンションを統合した最初のトレーニングフリーフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T16:14:03Z) - BUZZ: Beehive-structured Sparse KV Cache with Segmented Heavy Hitters for Efficient LLM Inference [2.3587921104010756]
推論速度を高めつつキャッシュメモリ使用量を最小限に抑える新しいKVキャッシュアルゴリズムであるBUZZを提案する。
BUZZはビーハイブ構造化スパースキャッシュを採用し、スライディングウィンドウを組み込んで最近の情報をキャプチャする。
CNN/Daily Mail, XSUM, Wikitext, 10-QAの4つの実世界のデータセット上でBUZZを評価する。
論文 参考訳(メタデータ) (2024-10-30T14:53:37Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。