論文の概要: S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference
- arxiv url: http://arxiv.org/abs/2601.17702v1
- Date: Sun, 25 Jan 2026 05:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.221245
- Title: S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bounded Long-Context Inference
- Title(参考訳): S$^3$-Attention:Attention-Aligned Endogenous Retrieval for Memory-Bunded Long-Context Inference
- Authors: Qingsen Ma, Dianyun Wang, Yaoye Wang, Lechen Ning, Sujie Zhu, Xiaohang Zhang, Jiaming Lyu, Linhao Ren, Zhenbo Xu, Zhaofeng He,
- Abstract要約: S3-Attentionは,長期コンテキスト処理を注目に順応した内因性検索として扱うメモリファースト推論時フレームワークである。
S3-Attentionは、軽量なスパースオートエンコーダを使用して、トランジェントキーとクエリプロジェクションをトップkスパース機能識別子にデコードする。
単一のストリーミングスキャン中にトークンの位置やスパンにCPUベースの逆インデックスマッピング機能を構築する。
- 参考スコア(独自算出の注目度): 11.779449360037518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly applied to multi-document and long-form inputs, yet long-context inference remains memory- and noise-inefficient. Key-value (KV) caching scales linearly with context length, while external retrieval methods often return lexically similar but causally irrelevant passages. We present S3-Attention, a memory-first inference-time framework that treats long-context processing as attention-aligned endogenous retrieval. S3-Attention decodes transient key and query projections into top-k sparse feature identifiers using lightweight sparse autoencoders, and constructs a CPU-based inverted index mapping features to token positions or spans during a single streaming scan. This design allows the KV cache to be discarded entirely and bounds GPU memory usage by the scan chunk size. At generation time, feature co-activation is used to retrieve compact evidence spans, optionally fused with BM25 for exact lexical matching. Under a unified LongBench evaluation protocol with fixed prompting, decoding, and matched token budgets, S3-Hybrid closely matches full-context inference across multiple model families and improves robustness in several information-dense settings. We also report an engineering limitation of the current prototype, which incurs higher wall-clock latency than optimized full-KV baselines, motivating future kernel-level optimization.
- Abstract(参考訳): 大規模言語モデルは、多文書や長文入力にますます応用されるが、長文推論はメモリとノイズ非効率のままである。
キー値(KV)キャッシングは文脈長と線形にスケールするが、外部検索手法はしばしば語彙的に似ているが因果的に無関係な経路を返す。
S3-Attentionは,長期コンテキスト処理を注目に順応した内因性検索として扱うメモリファースト推論時フレームワークである。
S3-Attentionは、トランジェントキーとクエリプロジェクションを軽量なスパースオートエンコーダを使用してトップkスパース機能識別子にデコードし、単一のストリーミングスキャン中にトークン位置やスパンにCPUベースの逆インデックスマッピング機能を構築する。
この設計により、KVキャッシュは完全に破棄され、スキャンチャンクサイズによってGPUメモリ使用量が制限される。
特徴コアクティベーションは、コンパクトなエビデンスを復元するために使用され、オプションで正確な語彙マッチングのためにBM25と融合する。
固定プロンプト、デコーディング、整合トークン予算を備えた統一されたLongBench評価プロトコルの下で、S3-Hybridは複数のモデルファミリ間でのフルコンテキスト推論と密に一致し、複数の情報密度設定における堅牢性を改善する。
また、現在のプロトタイプのエンジニアリング上の制限を報告し、これは、最適化されたフルKVベースラインよりも高いウォールクロックレイテンシを発生させ、将来のカーネルレベルの最適化を動機付けている。
関連論文リスト
- Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference [27.69137902678418]
RetroInferは、長文推論を加速するために固有の注意空間を利用する新しいシステムである。
KVキャッシュがCPUメモリに拡張された場合、GPUメモリリミット内では4.5倍のスピードアップと、スムーズなアテンションベースライン上で最大10.5倍のスピードアップを示します。
論文 参考訳(メタデータ) (2025-05-05T18:01:17Z) - SCBench: A KV Cache-Centric Analysis of Long-Context Methods [61.025422435235456]
KVキャッシュ中心の視点から長文の手法を評価するベンチマークであるSCBenchを紹介する。
我々は、Gated Linear RNNsやMamba-Attention Hybridsを含む8つのカテゴリの長期コンテキストソリューションについて、広範なKVキャッシュ中心の分析を行う。
本研究は,O(n)メモリとサブO(n2)プリフィルによるスパース符号化が堅牢に動作する一方で,サブO(n)メモリ手法がマルチターンシナリオに悩まされていることを示す。
論文 参考訳(メタデータ) (2024-12-13T17:59:52Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [61.787865959140994]
本稿では,入力コンテキストの大部分を固定したアプリケーションを高速化するために,Squeezed Attentionを提案する。
推論中、ユーザ入力からのクエリトークンとセントロイドを比較し、固定されたコンテキストからどのキーが意味論的に関連しているかを予測する。
また,線形から対数的への注意の複雑さを,固定した文脈長に対して低減できる階層型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。
KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。
検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving [31.766738294505767]
CacheGenは、大きな言語モデルのための高速なコンテキストローディングモジュールである。
カスタムテンソルエンコーダを使用して、KVキャッシュをコンパクトなビットストリーム表現にエンコードする。
KVキャッシュの異なる部分の圧縮レベルを適用して、利用可能な帯域幅の変化に対処する。
論文 参考訳(メタデータ) (2023-10-11T07:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。