論文の概要: IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse
- arxiv url: http://arxiv.org/abs/2603.12201v1
- Date: Thu, 12 Mar 2026 17:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.254022
- Title: IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse
- Title(参考訳): IndexCache: Cross-Layer Index Reuseによるスパースアテンションの高速化
- Authors: Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li,
- Abstract要約: Longcontext Agenticは、大規模言語モデルの定義ユースケースとして登場した。
Sparseは、この課題を効果的に解決し、DeepSeek Sparse Attention(DSA)は、代表的なプロダクショングレードソリューションである。
我々は、レイヤを独自のインデクサを実行するフルレイヤの小さなセットと、最も近いフルレイヤのトップkインデックスを単純に再利用する共有レイヤの大多数に分割することで、層間の冗長性を利用するIndexCacheを紹介します。
- 参考スコア(独自算出の注目度): 68.18308357205586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context agentic workflows have emerged as a defining use case for large language models, making attention efficiency critical for both inference speed and serving cost. Sparse attention addresses this challenge effectively, and DeepSeek Sparse Attention (DSA) is a representative production-grade solution: a lightweight lightning indexer selects the top-k most relevant tokens per query, reducing core attention from $O(L^2)$ to $O(Lk)$. However, the indexer itself retains $O(L^2)$ complexity and must run independently at every layer, despite the fact that the resulting top-k selections are highly similar across consecutive layers. We present IndexCache, which exploits this cross-layer redundancy by partitioning layers into a small set of Full layers that run their own indexers and a majority of Shared layers that simply reuse the nearest Full layer's top-k indices. We propose two complementary approaches to determine and optimize this configuration. Training-free IndexCache applies a greedy search algorithm that selects which layers to retain indexers by directly minimizing language modeling loss on a calibration set, requiring no weight updates. Training-aware IndexCache introduces a multi-layer distillation loss that trains each retained indexer against the averaged attention distributions of all layers it serves, enabling even simple interleaved patterns to match full-indexer accuracy. Experimental results on a 30B DSA model show that IndexCache can remove 75% of indexer computations with negligible quality degradation, achieving up to 1.82$\times$ prefill speedup and 1.48$\times$ decode speedup compared to standard DSA. These positive results are further confirmed by our preliminary experiments on the production-scale GLM-5 model (Figure 1).
- Abstract(参考訳): 長期コンテキストのエージェントワークフローは、大規模言語モデルの定義ユースケースとして現れ、推論速度とサービスコストの両方において、注意力の効率が重要である。
DeepSeek Sparse Attention(DSA)は、一般的なプロダクショングレードのソリューションである。軽量のLightningインデクサは、クエリ毎に最も関連性の高いトークンを選択し、コアの注意を$O(L^2)$から$O(Lk)$に下げる。
しかし、インデクサ自体が$O(L^2)$の複雑さを保持しており、結果のトップk選択が連続する層間で非常によく似ているにもかかわらず、すべての層で独立に実行されなければならない。
レイヤを独自のインデクサを実行するフルレイヤの小さなセットと、最も近いフルレイヤのトップkインデックスを単純に再利用する共有レイヤの大多数に分割することで、この層間の冗長性を利用するIndexCacheを紹介します。
この構成を決定・最適化する2つの補完的手法を提案する。
トレーニング不要のIndexCacheは、キャリブレーションセットでの言語モデリング損失を直接最小化し、重み付けを必要とせず、インデックスを保持すべきレイヤを選択する。
トレーニング対応のIndexCacheは、インデクサをトレーニングする多層蒸留損失を導入し、各インデクサが提供するすべてのレイヤの平均的なアテンション分布に対して、インデクサをトレーニングすることで、単純なインターリーブドパターンでもフルインデクサの精度にマッチさせることができる。
30B DSAモデルによる実験結果から、IndexCacheは、標準のDSAと比較して最大1.82$\times$プリフィル・スピードアップと1.48$\times$デコード・スピードアップを達成できる。
これらの結果は, 生産規模 GLM-5 モデルに関する予備実験によりさらに確認された(第1報)。
関連論文リスト
- Multiple Index Merge for Approximate Nearest Neighbor Search [14.386466486046814]
本稿では、AKNN検索のための効率的な2次元統合と複数のインデックスのマージ順序について述べる。
本稿では,構造情報を活用してマージ効率を向上させるリバース隣り合うスライディング・マージ(RNSM)を提案する。
実験の結果,既存のインデックスマージ法よりも5.48$times$スピードアップ,9.92$times$インデックス再構成よりも9.92$times$スピードアップが得られた。
論文 参考訳(メタデータ) (2026-02-19T05:50:34Z) - VLCache: Computing 2% Vision Tokens and Reusing 98% for Vision-Language Inference [32.33685370786451]
VLCacheは、KeyValue(KV)キャッシュとEncoderLang入力の両方を活用するキャッシュ再利用フレームワークである。
VLCacheはトークンの2-5%しか計算しておらず、1.2x-16x TTFTの高速化を実現している。
論文 参考訳(メタデータ) (2025-12-15T04:45:47Z) - AttnCache: Accelerating Self-Attention Inference for LLM Prefill via Attention Cache [17.07520167324377]
大規模言語モデル(LLM)は、チャット、コード生成、推論などの生成アプリケーションで広く使われている。
我々は,LLM推論のプリフィルステージを高速化するフレームワークであるAttnCacheを提案する。
AttnCacheはCPU上でのエンド・ツー・エンドと2倍のアテンション・スピードアップ、GPU上でのエンド・ツー・エンドと3倍のアテンション・スピードアップを平均で1.2倍の精度で達成する。
論文 参考訳(メタデータ) (2025-10-29T21:26:17Z) - Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。
我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。
我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文 参考訳(メタデータ) (2025-06-03T06:02:50Z) - Efficient Inference of Vision Instruction-Following Models with Elastic Cache [76.44955111634545]
我々は,命令追従型大規模視覚言語モデルの効率的なデプロイのための新しい戦略であるElastic Cacheを紹介する。
本稿では,冗長キャッシュを具現化する重要なキャッシュマージ戦略を提案する。
命令符号化では,キャッシュの重要性を評価するために周波数を利用する。
様々なLVLMの結果は、Elastic Cacheが効率を向上するだけでなく、言語生成における既存のプルーニングメソッドよりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-25T15:29:05Z) - Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching [56.286064975443026]
拡散変圧器内の多数の層をキャッシュ機構で計算することで、モデルパラメータを更新しなくても容易に除去できる。
本稿では,拡散変圧器の動的手法でキャッシングを学習するL2C(Learningto-Cache)を提案する。
実験の結果,L2C は DDIM や DPM-r など,キャッシュベースの従来の手法と同等の推論速度で性能を向上することがわかった。
論文 参考訳(メタデータ) (2024-06-03T18:49:57Z) - MeanCache: User-Centric Semantic Caching for LLM Web Services [8.350378532274405]
キャッシングは、繰り返しクエリの推論コストを削減するための自然なソリューションである。
本稿では,LLMベースのサービスのためのユーザ中心セマンティックキャッシュであるMeanCacheを紹介する。
MeanCacheは、セマンティックに類似したクエリを特定して、キャッシュヒットやミスを判定する。
論文 参考訳(メタデータ) (2024-03-05T06:23:50Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。