論文の概要: Echo: KV-Cache-Free Associative Recall with Spectral Koopman Operators
- arxiv url: http://arxiv.org/abs/2605.06997v1
- Date: Thu, 07 May 2026 22:26:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.652575
- Title: Echo: KV-Cache-Free Associative Recall with Spectral Koopman Operators
- Title(参考訳): Echo: スペクトルクープマン演算子によるKVキャッシュフリー連想リコール
- Authors: Anupama Sridhar, Alexander Johansen,
- Abstract要約: スペクトルクープマン注意(SKA)を中心に構築されたKV-cacheフリー連想リコールアーキテクチャ
我々は、SKA(Spectral Koopman Attention)を中心に構築されたKV-cacheフリーな連想型リコールアーキテクチャであるEchoを紹介する。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long chain-of-thought reasoning and agentic tool-calling produce traces spanning tens of thousands of tokens, yet Transformer KV caches grow linearly with sequence length, creating a memory bottleneck on commodity hardware. State-space models offer constant-memory recurrence but suffer a memory cliff: retrieval accuracy collapses once the gap between a stored fact and its query exceeds the effective horizon of the recurrent state. We introduce Echo, a KV-cache-free associative recall architecture built around Spectral Koopman Attention (SKA); a drop-in replacement for attention layers that augments SSM blocks with a closed-form dynamical operator whose sufficient statistics are accumulated in constant memory with no KV cache. Echo fits a spectral linear system to the key and value history via kernel ridge regression and retrieves through a learned power-iterated filter, all from $O(r^{2})$ streaming state where $r$ is a small projection rank. On the Multi-Query Associative Recall benchmark, a pure Mamba-2 SSM fails to exceed chance accuracy (${\sim}3\%$) across all gap lengths and KV-pair counts, while at the 50M parameter scale SKA-augmented models achieve $100\%$ retrieval accuracy on every configuration tested, including distractor gaps of $4{,}096$ tokens with $32$ KV pairs. Across five additional transfer benchmarks including needle-in-a-haystack, tool-trace, and multi-hop retrieval, SKA consistently outperforms both pure SSM and SSM+Attention hybrids while maintaining constant inference memory. Ablations confirm that the spectral operator, not the prefix masking strategy, drives the retrieval gain.
- Abstract(参考訳): 長いチェーンの推論とエージェントツールコールは数万のトークンにまたがるトレースを生成するが、Transformer KVキャッシュはシーケンス長とともに線形に成長し、コモディティハードウェアにおけるメモリボトルネックを生み出す。
検索精度は、記憶された事実とクエリの間のギャップが、繰り返し状態の効果的な水平線を超えると崩壊する。
本稿では,SKA(Spectral Koopman Attention)を中心に構築されたKVキャッシュのない連想型リコールアーキテクチャであるEchoを紹介した。
Echoは、カーネルリッジレグレッションを通じてキーと値履歴にスペクトル線形系を適合させ、学習されたパワータイトフィルタを通して、すべて$O(r^{2})$ストリーミング状態から取得する。
Multi-Query Associative Recallベンチマークでは、純粋なMamba-2 SSMは、すべてのギャップ長とKVペア数で偶然の精度を超えることができない({\sim}3\%$)。
ニードル・イン・ア・ヘイスタック、ツール・トレース、マルチホップ検索を含む5つの追加の転送ベンチマークにおいて、SKAは、一定の推論メモリを維持しながら、純粋なSSMとSSM+Attentionのハイブリッドを一貫して上回っている。
アブレーションは、プレフィックスマスキング戦略ではなくスペクトル演算子が検索ゲインを駆動することを確認する。
関連論文リスト
- KEEP: A KV-Cache-Centric Memory Management System for Efficient Embodied Planning [8.216400469571084]
効率的な実施計画のためのKVキャッシュ型メモリ管理システムKEEPを提案する。
KEEPは,(1)混合粒度メモリグループによるKVキャッシュ再計算を低減する静的動的メモリ構築アルゴリズム,(2)異なるメモリグループ間の重要なクロスアテンションを動的に識別するマルチホップメモリ再計算アルゴリズム,(3)不均衡なKVキャッシュのロードと異なるレイヤ間のクロスアテンションを排除するレイヤバランスのメモリローディングという3つの重要なイノベーションを特徴としている。
論文 参考訳(メタデータ) (2026-02-27T01:48:07Z) - DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity [50.52392445266824]
そこで本稿では,KV表現における長距離間類似性と高共有遅延成分を動機とする残差ベースのKVキャッシュ圧縮フレームワークを提案する。
DeltaKVはトークンを捨てる代わりに、検索した履歴参照に対するセマンティックな残基をエンコードし、保存を著しく削減する。
実験によると、DeltaKVは、LongBench、SCBench、AIMEでほぼロスレスの精度を維持しながら、KVキャッシュメモリを元の29%に削減している。
論文 参考訳(メタデータ) (2026-02-08T15:14:36Z) - Cache What Lasts: Token Retention for Memory-Bounded KV Cache in LLMs [26.951325519894525]
本稿では,軽量保持ゲートを介して各トークンの創出時の本質的な重要性を学習する手法を提案する。
我々は,特に低メモリ環境において,強い信念と学習可能な検索ベースラインを一貫して上回ることを示す。
一部の設定ではフルキャッシュモデルを超えており、選択的な保持が正規化の一形態として機能することを示している。
論文 参考訳(メタデータ) (2025-12-03T00:20:35Z) - ZSMerge: Zero-Shot KV Cache Compression for Memory-Efficient Long-Context LLMs [15.76582272387931]
本稿では,効率的なキャッシュ管理のための動的KVキャッシュ圧縮フレームワークZSMergeを提案する。
ZSMergeはメモリ効率と推論速度を無視可能な性能劣化で著しく向上させる。
論文 参考訳(メタデータ) (2025-03-13T03:36:03Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - ClusterKV: Manipulating LLM KV Cache in Semantic Space for Recallable Compression [10.003118268356017]
ロングコンテキストは推論効率に重大な課題をもたらす。
本稿では,意味クラスタの粒度でトークンをリコールするClusterKVを紹介する。
実験結果から、ClusterKVは32kのコンテキスト長を持つ様々なタスクにおいて、無視可能な精度の損失が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-04T10:58:27Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。