論文の概要: Unlocking the Address Book: Dissecting the Sparse Semantic Structure of LLM Key-Value Caches via Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2512.10547v1
- Date: Thu, 11 Dec 2025 11:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.336574
- Title: Unlocking the Address Book: Dissecting the Sparse Semantic Structure of LLM Key-Value Caches via Sparse Autoencoders
- Title(参考訳): アドレス帳のアンロック:スパースオートエンコーダによるLLMキーバリューキャッシュのスパースセマンティック構造の分離
- Authors: Qingsen Ma, Dianyun Wang, Jiaming Lyu, Yaoye Wang, Lechen Ning, Sujie Zhu, Zhenbo Xu, Liuyu Xiang, Huining Li, Huijia Wu, Zhaofeng He,
- Abstract要約: キーバリュー(KV)キャッシュは、長文大言語モデルにおける主要なメモリボトルネックである。
KVキャッシュを解釈可能なセマンティック原子に分解するフレームワークである textbfSTA-Attention' を提案する。
- 参考スコア(独自算出の注目度): 14.79653924723243
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Key-Value (KV) cache is the primary memory bottleneck in long-context Large Language Models, yet it is typically treated as an opaque numerical tensor. In this work, we propose \textbf{STA-Attention}, a framework that utilizes Top-K Sparse Autoencoders (SAEs) to decompose the KV cache into interpretable ``semantic atoms.'' Unlike standard $L_1$-regularized SAEs, our Top-K approach eliminates shrinkage bias, preserving the precise dot-product geometry required for attention. Our analysis uncovers a fundamental \textbf{Key-Value Asymmetry}: while Key vectors serve as highly sparse routers dominated by a ``Semantic Elbow,'' deep Value vectors carry dense content payloads requiring a larger budget. Based on this structure, we introduce a Dual-Budget Strategy that selectively preserves the most informative semantic components while filtering representational noise. Experiments on Yi-6B, Mistral-7B, Qwen2.5-32B, and others show that our semantic reconstructions maintain perplexity and zero-shot performance comparable to the original models, effectively bridging the gap between mechanistic interpretability and faithful attention modeling.
- Abstract(参考訳): キーバリュー(KV)キャッシュは、長文大言語モデルの主要なメモリボトルネックであるが、通常は不透明な数値テンソルとして扱われる。
本研究では,Top-K Sparse Autoencoders (SAEs) を用いて,KVキャッシュを解釈可能な `semanticatom に分解するフレームワークである \textbf{STA-Attention} を提案する。
標準的な$L_1$-regularized SAEと異なり、Top-Kアプローチでは、注意に必要な正確なドット積形状を保ちながら、収縮バイアスを排除しています。
キーベクトルは ' 'Semantic Elbow'' が支配する疎いルータとして機能するが、バリューベクトルはより予算を要する高密度なコンテンツペイロードを運ぶ。
この構造に基づいて、表現ノイズをフィルタリングしながら最も情報性の高い意味的成分を選択的に保存するデュアル予算戦略を導入する。
Yi-6B, Mistral-7B, Qwen2.5-32B などの実験により, セマンティック再構築では, 従来のモデルに匹敵するパープレキシティとゼロショット性能が維持され, 機械的解釈可能性と忠実なアテンションモデリングのギャップを効果的に埋めることを示した。
関連論文リスト
- KVCompose: Efficient Structured KV Cache Compression with Composite Tokens [7.922206020386125]
大規模言語モデル(LLM)は、効率的な自己回帰復号化のためにキー値(KV)キャッシュに依存している。
我々は,注意誘導型,層適応型複合トークンに基づく,シンプルで効果的なKVキャッシュ圧縮フレームワークを提案する。
本手法は精度を保ちながらメモリの大幅な削減を実現し,従来手法と半構造化手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-05T14:58:24Z) - TaDA: Training-free recipe for Decoding with Adaptive KV Cache Compression and Mean-centering [10.427881558469442]
量子化精度の高いKVキャッシュ圧縮のためのトレーニング不要なレシピであるTaDAを紹介する。
提案手法は,様々なコンテキスト長をサポートする複数のモデルに対して,大幅な精度向上を実現する。
本手法は,言語モデルにおけるスケーラブルで高性能な推論手法である。
論文 参考訳(メタデータ) (2025-06-05T05:23:38Z) - WeightedKV: Attention Scores Weighted Key-Value Cache Merging for Large Language Models [19.06842704338332]
大規模言語モデル(LLM)は、キー値(KV)キャッシュを使用して、自動回帰生成における冗長な計算を削減する。
ほとんどのKVキャッシュ圧縮手法は、固定キャッシュサイズを維持するために重要でないKVペアを排除し、生成時にトークンが恒久的に失われる。
WeightedKVは、重要でないトークンのテキストキーを排除し、平均アテンションスコアで重み付けされた凸組み合わせにより、それらのテキスト値を隣接するトークンにマージする、トレーニング不要なアプローチである。
論文 参考訳(メタデータ) (2025-03-03T09:12:34Z) - Quantize What Counts: More for Keys, Less for Values [63.51476878610841]
大規模言語モデル(LLM)は、キーバリュー(KV)キャッシュに支配される推論時のメモリボトルネックに悩まされる。
本稿ではトランスフォーマーモデルの内在幾何学における混合精度KV量子化を固定する2つの定理を提案する。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - More Tokens, Lower Precision: Towards the Optimal Token-Precision Trade-off in KV Cache Compression [71.42818367729573]
大規模言語モデル(LLM)では、KVキャッシュのメモリ使用量は推論において重大なボトルネックとなっている。
KVプルーニングやKV量子化を含む主流のKV圧縮法は、主にトークンまたは精度寸法を別々に扱う。
本稿では,KVキャッシュ圧縮におけるトークン精度トレードオフを包括的に検討する。
論文 参考訳(メタデータ) (2024-12-17T09:20:31Z) - CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation [63.65323577445951]
キャッシュスパース表現(CSR)と呼ばれる新しい手法を提案する。
CSRは、密度の高いKey-Valueキャッシュテンソルをスパースインデックスとウェイトに変換し、LLM推論中によりメモリ効率のよい表現を提供する。
我々の実験は、CSRが最先端KVキャッシュ量子化アルゴリズムに匹敵する性能を達成することを示した。
論文 参考訳(メタデータ) (2024-12-16T13:01:53Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - A Simple and Effective $L_2$ Norm-Based Strategy for KV Cache Compression [13.981807478365452]
キーバリューキャッシュサイズを減らすための既存のアプローチは、圧縮戦略を学ぶためのモデルを微調整するか、シーケンス長を減らすためにアテンションスコアを利用するかのいずれかである。
キャッシュされたKVペアに対して、$L$とアテンションスコアとの間に明らかな相関関係が見られ、キー埋め込みの低い$L$がデコード時に高いアテンションスコアをもたらす。
実験の結果,この単純な手法により,言語モデリングやニードル・イン・ア・ヘイスタックタスクでは50%,パスキー検索タスクでは90%,精度を損なうことなく,KVキャッシュサイズを50%削減できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T11:35:16Z) - Keyformer: KV Cache Reduction through Key Tokens Selection for Efficient Generative Inference [2.8241099113277666]
キーフォーマー」は、KVキャッシュサイズとメモリ帯域幅利用に関する課題を軽減する革新的な推論時アプローチである。
我々はKeyformerの性能を,GPT-J,Cerebras-GPT,MPTの3つの基礎モデルで評価した。
論文 参考訳(メタデータ) (2024-03-14T02:42:42Z) - Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs [82.08922896531618]
大規模言語モデル(LLM)における生成推論のメモリフットプリントを削減するプラグイン・アンド・プレイ方式である適応KVキャッシュ圧縮を導入する。
我々は,アテンションモジュールの本質的な構造を明らかにするために,ターゲットプロファイリングを行う。
認識された構造に基づいて、我々はKVキャッシュを適応的に構築する: 注意頭上の長距離コンテキストを排除し、局所的なコンテキストを強調し、特別なトークンを中心とした注意頭上の特別なトークンを排除し、すべてのトークンに広く参加する注目頭に対して標準のKVキャッシュのみを使用する。
論文 参考訳(メタデータ) (2023-10-03T05:17:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。