論文の概要: HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
- arxiv url: http://arxiv.org/abs/2603.28458v1
- Date: Mon, 30 Mar 2026 13:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.430649
- Title: HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
- Title(参考訳): HISA:細粒度スパース注意のための効率的な階層的索引付け
- Authors: Yufei Xu, Fanxu Meng, Fan Jiang, Yuxuan Wang, Ruijie Zhou, Jiexi Wu, Zhixin Pan, Zhaohui Wang, Xiaojuan Tang, Wenjie Pei, Tongxuan Liu, Di yin, Xing Sun, Muhan Zhang,
- Abstract要約: HISA (Hierarchical Indexed Sparse Attention) はインデクサのドロップイン置換である。
HISAは、探索プロセスを平らなトークンスキャンから2段階の階層的な手順に変換する。
カーネルレベルのベンチマークでは、HISAは32Kコンテキスト長で2$times$、128Kで4$times$を達成している。
- 参考スコア(独自算出の注目度): 62.79085204939384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token-level sparse attention mechanisms, exemplified by DeepSeek Sparse Attention (DSA), achieve fine-grained key selection by scoring every historical token for each query using a lightweight indexer, and then computing attention only over the selected subset. While the downstream sparse attention scales efficiently, the indexer still scans the entire prefix for every query, introducing an O($L^2$) per-layer bottleneck that becomes prohibitive as context length grows. We propose HISA (Hierarchical Indexed Sparse Attention), a drop-in replacement for the indexer that transforms the search process from a flat token scan into a two-stage hierarchical procedure. First, a block-level coarse filter scores pooled block representatives to prune irrelevant regions. Then, a token-level refinement applies the original indexer only within the remaining candidate blocks. HISA preserves the exact token-level top-k sparsity pattern required by the downstream Sparse MLA operator and requires no additional training. On kernel-level benchmarks, HISA achieves a 2$\times$ speedup at 32K context length and 4$\times$ at 128K. On Needle-in-a-Haystack and LongBench, we directly replace the indexer in DeepSeek-V3.2 with HISA, without any fine-tuning. HISA closely matches the original DSA in quality while significantly outperforming block-sparse baselines. Moreover, the token selection sets produced by HISA and the original DSA exhibit a mean IoU greater than 99%, indicating that the efficiency gains come with virtually no impact on selection fidelity.
- Abstract(参考訳): DeepSeek Sparse Attention (DSA)で実証されたトークンレベルのスパースアテンション機構は、軽量インデックス装置を使用してクエリ毎にすべての履歴トークンをスコアし、選択したサブセットに対してのみ注意を演算することで、きめ細かいキー選択を実現する。
下流のスパースアテンションは効率よくスケールするが、インデクサはクエリ毎にプレフィックス全体をスキャンし、コンテキスト長が大きくなるにつれて禁止となる層ごとのボトルネック(O($L^2$)を導入する。
HISA (Hierarchical Indexed Sparse Attention) は,平らなトークンスキャンから2段階の階層的手順に変換するインデクサの代替手法である。
まず、ブロックレベルの粗いフィルタが、プールされたブロック代表者を無関係領域にプーンする。
トークンレベルの改善は、元のインデクサを残りの候補ブロックにのみ適用する。
HISAは、下流Sparse MLA演算子に必要な正確なトークンレベルのトップk空間パターンを保持し、追加のトレーニングを必要としない。
カーネルレベルのベンチマークでは、HISAは32Kコンテキスト長で2$\times$、128Kで4$\times$を達成している。
Needle-in-a-HaystackとLongBenchでは、DeepSeek-V3.2のインデクサを直接HISAに置き換えます。
HISA はオリジナルの DSA の品質と密に一致し、ブロックスパースベースラインを著しく上回っている。
さらに、HISAとDSAが生成したトークン選択セットは平均IoUが99%以上の値を示し、効率の上昇は選択の忠実性にはほとんど影響しないことを示した。
関連論文リスト
- IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse [68.18308357205586]
Longcontext Agenticは、大規模言語モデルの定義ユースケースとして登場した。
Sparseは、この課題を効果的に解決し、DeepSeek Sparse Attention(DSA)は、代表的なプロダクショングレードソリューションである。
我々は、レイヤを独自のインデクサを実行するフルレイヤの小さなセットと、最も近いフルレイヤのトップkインデックスを単純に再利用する共有レイヤの大多数に分割することで、層間の冗長性を利用するIndexCacheを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:27:21Z) - SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - HAKES: Scalable Vector Database for Embedding Search Service [16.034584281180006]
我々は,並列な読み書きワークロード下で高いスループットと高いリコールを実現するベクトルデータベースを構築した。
我々のインデックスは、高リコール領域と同時読み書きワークロード下でインデックスベースラインより優れています。
nameysはスケーラブルで、ベースラインよりも最大16タイムで高いスループットを実現します。
論文 参考訳(メタデータ) (2025-05-18T19:26:29Z) - RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。
RetrievalAttentionは1-3%のデータのみを必要としながら、ほぼ全注意精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-09-16T17:59:52Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - End-to-End Learning to Index and Search in Large Output Spaces [95.16066833532396]
Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。
本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-16T01:34:17Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。