論文の概要: MISA: Mixture of Indexer Sparse Attention for Long-Context LLM Inference
- arxiv url: http://arxiv.org/abs/2605.07363v1
- Date: Fri, 08 May 2026 07:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.881306
- Title: MISA: Mixture of Indexer Sparse Attention for Long-Context LLM Inference
- Title(参考訳): MISA:長期LLM推論のためのインデクサスパースアテンションの混合
- Authors: Ruijie Zhou, Fanxu Meng, Yufei Xu, Tongxuan Liu, Guangming Lu, Muhan Zhang, Wenjie Pei,
- Abstract要約: 本稿では,DSAインデクサのリプレースとして,インデクサヘッドをエキスパートの混合プールとして扱うDSAインデクサを提案する。
MISAはロングベンチの密度の高いDSAインデクサとDeepSeek-V3.2とGLM-5で一致し、それぞれ8倍と4倍のインデクサヘッドで動作している。
私たちのTileLangカーネルは、単一のNVIDIA H200 GPU上で、DSAのオリジナルのインデクサカーネルの約3.82倍のスピードアップを実現しています。
- 参考スコア(独自算出の注目度): 75.41426145782751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DeepSeek Sparse Attention (DSA) sets the state of the art for fine-grained inference-time sparse attention by introducing a learned token-wise indexer that scores every prefix token and selects the most relevant ones for the main attention. To remain expressive, the indexer uses many query heads (for example, 64 on DeepSeek-V3.2) that share the same selected token set; this multi-head design is precisely what makes the indexer the dominant cost on long contexts. We propose MISA (Mixture of Indexer Sparse Attention), a drop-in replacement for the DSA indexer that treats its indexer heads as a pool of mixture-of-experts. A lightweight router uses cheap block-level statistics to pick a query-dependent subset of only a few active heads, and only those heads run the heavy token-level scoring. This preserves the diversity of the original indexer pool while reducing the per-query cost from scoring every prefix token with every head to scoring it with only a handful of routed heads, plus a negligible router term computed on a small set of pooled keys. We further introduce a hierarchical variant of MISA that uses the routed pass to keep an enlarged candidate set and then re-ranks it with the original DSA indexer to recover the final selected tokens almost exactly. With only eight active heads and no additional training, MISA matches the dense DSA indexer on LongBench across DeepSeek-V3.2 and GLM-5 while running with eight and four times fewer indexer heads respectively, and outperforms HISA on average. It also preserves fully green Needle-in-a-Haystack heatmaps up to a 128K-token context and recovers more than 92% of the tokens selected by the DSA indexer per layer. Our TileLang kernel delivers roughly a 3.82 times speedup over DSA's original indexer kernel on a single NVIDIA H200 GPU.
- Abstract(参考訳): DeepSeek Sparse Attention (DSA)は、すべてのプレフィックストークンをスコアし、メインアテンションのために最も関連性の高いものを選択する学習トークンワイドインデクサを導入することで、詳細な推測時スパースアテンションの最先端を設定する。
表現力を維持するために、インデクサは多数のクエリヘッド(例えば、DeepSeek-V3.2で64)を使用し、同じ選択されたトークンセットを共有する。
MISA(Mixture of Indexer Sparse Attention)は,DSAインデクサのリプレースで,インデクサヘッドをエキスパートの混合プールとして扱う。
軽量ルータは、安価なブロックレベル統計を使用して、数個のアクティブヘッドのクエリ依存サブセットを選択し、それらの頭だけが重いトークンレベルスコアを実行します。
これは、クエリごとのコストを、すべてのプレフィックストークンを1つのヘッドでスコア付けすることから、少数のルートされたヘッドでスコア付けすること、そして小さなプールされたキーで計算される無視可能なルータ項に還元しながら、オリジナルのインデクサプールの多様性を保っている。
さらに、ルート付きパスを使用して拡張された候補セットを保持し、元のDSAインデクサで再ランクし、最終的に選択されたトークンをほぼ正確に復元する、MISAの階層的変形を導入する。
8つのアクティブヘッドと追加のトレーニングがないMISAは、LongBenchの密度の高いDSAインデクサをDeepSeek-V3.2とGLM-5で比較し、それぞれ8倍と4倍のインデクサヘッドで実行し、平均でHISAを上回っている。
また、完全なグリーンなNeedle-in-a-Haystackヒートマップを128Kまでのコンテキストで保存し、DSAインデクサによって選択されたトークンの92%以上を回収する。
私たちのTileLangカーネルは、単一のNVIDIA H200 GPU上で、DSAのオリジナルのインデクサカーネルの約3.82倍のスピードアップを実現しています。
関連論文リスト
- HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention [62.79085204939384]
HISA (Hierarchical Indexed Sparse Attention) は、平らなトークンスキャンから2段階の階層的な手順に検索パスを書き換える。
カーネルレベルのベンチマークでは、HISAは64Kコンテキストでの高速化を実現している。
論文 参考訳(メタデータ) (2026-03-30T13:59:51Z) - IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse [68.18308357205586]
Longcontext Agenticは、大規模言語モデルの定義ユースケースとして登場した。
Sparseは、この課題を効果的に解決し、DeepSeek Sparse Attention(DSA)は、代表的なプロダクショングレードソリューションである。
我々は、レイヤを独自のインデクサを実行するフルレイヤの小さなセットと、最も近いフルレイヤのトップkインデックスを単純に再利用する共有レイヤの大多数に分割することで、層間の冗長性を利用するIndexCacheを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:27:21Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。