論文の概要: AttnCache: Accelerating Self-Attention Inference for LLM Prefill via Attention Cache
- arxiv url: http://arxiv.org/abs/2510.25979v1
- Date: Wed, 29 Oct 2025 21:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.580694
- Title: AttnCache: Accelerating Self-Attention Inference for LLM Prefill via Attention Cache
- Title(参考訳): AttnCache: 注意キャッシュによるLLMプリフィルの自己注意推論の高速化
- Authors: Dinghong Song, Yuan Feng, Yiwei Wang, Shangye Chen, Cyril Guyot, Filip Blagojevic, Hyeran Jeon, Pengfei Su, Dong Li,
- Abstract要約: 大規模言語モデル(LLM)は、チャット、コード生成、推論などの生成アプリケーションで広く使われている。
我々は,LLM推論のプリフィルステージを高速化するフレームワークであるAttnCacheを提案する。
AttnCacheはCPU上でのエンド・ツー・エンドと2倍のアテンション・スピードアップ、GPU上でのエンド・ツー・エンドと3倍のアテンション・スピードアップを平均で1.2倍の精度で達成する。
- 参考スコア(独自算出の注目度): 17.07520167324377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely used in generative applications such as chatting, code generation, and reasoning. However, many realworld workloads such as classification, question answering, recommendation, and text embedding rely solely on the prefill stage of inference, where the model encodes input sequences without performing autoregressive decoding. In these prefill only scenarios, the self-attention computation becomes the primary performance bottleneck due to its quadratic complexity with respect to sequence length. In this paper, we observe that semantically different sentences often produce similar attention maps across layers and heads. Building on this insight, we propose AttnCache, a framework that accelerates the prefill stage of LLM inference by retrieving and reusing similar attention maps. Based on an attention map memorization database, AttnCache employs efficient caching and similarity search techniques to identify and reuse pre-cached attention maps during inference, thereby reducing the computational overhead of self-attention. Experimental results show that AttnCache achieves an average of 1.2x end-to-end and 2x attention speedup on CPU, and 1.6x end-to-end and 3x attention speedup on GPU, with negligible accuracy degradation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チャット、コード生成、推論などの生成アプリケーションで広く使われている。
しかし、分類、質問応答、レコメンデーション、テキスト埋め込みといった現実世界の多くのワークロードは、モデルが自動回帰デコードを実行せずに入力シーケンスをエンコードする推論の予備段階にのみ依存している。
これらのプリフィルのみのシナリオでは、自己アテンション計算は、シーケンス長に関して2次的な複雑さのため、主要なパフォーマンスボトルネックとなる。
本稿では,意味的に異なる文がしばしば層や頭部に類似した注意マップを生成することを観察する。
この知見に基づいて,同様の注意マップの検索と再利用により,LLM推論の予備段階を加速するフレームワークであるAttnCacheを提案する。
AttnCacheは、アテンションマップ記憶データベースに基づいて、推論中にプリキャッシュされたアテンションマップを識別および再利用するために効率的なキャッシングと類似性検索技術を用いて、自己アテンションの計算オーバーヘッドを低減する。
実験結果から,AttnCacheはCPU上では平均1.2倍,CPU上では2倍,GPU上では1.6倍,注目速度では3倍の高速化を実現している。
関連論文リスト
- OBCache: Optimal Brain KV Cache Pruning for Efficient Long-Context LLM Inference [11.315090790312041]
本稿では,キャッシュ消去を階層的に構造化したプルーニング問題として定式化するフレームワークを提案する。
プルーニングトークンによって誘導される注意出力の摂動を、孤立鍵、孤立値、結合鍵-値対に導かれる閉形式スコアを用いて測定する。
我々のスコアは、注意重みだけでなく、価値状態や注意出力からの情報も考慮し、既存の逸脱戦略を出力対応信号で強化する。
論文 参考訳(メタデータ) (2025-10-09T00:58:28Z) - DiCache: Let Diffusion Model Determine Its Own Cache [62.954717254728166]
DiCacheは、実行時に拡散モデルを加速するためのトレーニング不要のアダプティブキャッシュ戦略である。
Online Probe Profiling Schemeは浅層オンラインプローブを利用して,キャッシュエラーのオンザフライインジケータをリアルタイムで取得する。
Dynamic Cache Trajectory Alignmentは、マルチステップの履歴キャッシュから出力されるディープ層の特徴を近似する。
論文 参考訳(メタデータ) (2025-08-24T13:30:00Z) - LaCache: Ladder-Shaped KV Caching for Efficient Long-Context Modeling of Large Language Models [52.56008278458534]
LaCacheは、大規模言語モデルの効率的かつ正確な生成推論のためのトレーニング不要の手法である。
LaCacheを使用することで、LLMは長期モデリングにおける重要な課題、すなわち堅牢な長距離機能と、メモリのアウト・オブ・メモリを走らせることなく連続的な生成の両方に対処できる。
論文 参考訳(メタデータ) (2025-07-14T19:09:57Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - InstCache: A Predictive Cache for LLM Serving [6.076957323090607]
キャッシング技術は、大規模言語モデル推論エンジンのパフォーマンスを最適化する機会を提供する。
命令の内容と長さのばらつきが大きいため、同じ命令が短時間のウィンドウ内で再帰することは稀である。
LLMサービスシステムの予測キャッシュ機構であるInstCacheを提案する。
論文 参考訳(メタデータ) (2024-11-21T03:52:41Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - PQCache: Product Quantization-based KVCache for Long Context LLM Inference [27.523568511043273]
Key-Value Cache (KVCache) は、大規模言語モデル(LLM)内のトークンの中間表現である。
本稿では,KVCacheの管理にPQ(Product Quantization)を採用しているPQCacheを提案する。
PQCacheは有効性と効率の両方を実現しており、InfiniteBenchの既存のメソッドよりも4.60%のスコアが向上している。
論文 参考訳(メタデータ) (2024-07-01T13:05:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。