論文の概要: HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
- arxiv url: http://arxiv.org/abs/2603.28458v3
- Date: Mon, 06 Apr 2026 09:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.434492
- Title: HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention
- Title(参考訳): HISA:細粒度スパース注意のための効率的な階層的索引付け
- Authors: Yufei Xu, Fanxu Meng, Fan Jiang, Yuxuan Wang, Ruijie Zhou, Zhaohui Wang, Jiexi Wu, Zhixin Pan, Xiaojuan Tang, Wenjie Pei, Tongxuan Liu, Di Yin, Xing Sun, Muhan Zhang,
- Abstract要約: HISA (Hierarchical Indexed Sparse Attention) は、平らなトークンスキャンから2段階の階層的な手順に検索パスを書き換える。
カーネルレベルのベンチマークでは、HISAは64Kコンテキストでの高速化を実現している。
- 参考スコア(独自算出の注目度): 62.79085204939384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Token-level sparse attention mechanisms, exemplified by DeepSeek Sparse Attention (DSA), achieve fine-grained key selection by scoring every historical key for each query through a lightweight indexer, then computing attention only on the selected subset. While the downstream sparse attention itself scales favorably, the indexer must still scan the entire prefix for every query, introducing an per-layer bottleneck that grows prohibitively with context length. We propose HISA (Hierarchical Indexed Sparse Attention), a plug-and-play replacement for the indexer that rewrites the search path from a flat token scan into a two-stage hierarchical procedure: (1) a block-level coarse filtering stage that scores pooled block representations to discard irrelevant regions, followed by (2) a token-level refinement stage that applies the original indexer exclusively within the retained candidate blocks. HISA preserves the identical token-level top-sparse pattern consumed by the downstream Sparse MLA operator and requires no additional training. On kernel-level benchmarks, HISA achieves up to speedup at 64K context. On Needle-in-a-Haystack and LongBench, we directly replace the indexer in DeepSeek-V3.2 and GLM-5 with our HISA indexer, without any finetuning. HISA closely matches the original DSA in quality, while substantially outperforming block-sparse baselines.
- Abstract(参考訳): DeepSeek Sparse Attention (DSA) で実証されたトークンレベルのスパースアテンション機構は、軽量インデクサを通じて各クエリのすべての履歴キーをスコアし、選択したサブセットにのみ注意を演算することで、きめ細かいキー選択を実現する。
下流のスパースアテンション自体は好意的にスケールするが、インデクサはクエリ毎にプレフィックス全体をスキャンしなければならない。
HISA(Hierarchical Indexed Sparse Attention)は,フラットトークンスキャンからの検索パスを2段階の階層的な手順に書き換えるインデクサのプラグ・アンド・プレイの代替として,(1)非関連領域を破棄するためにプールブロック表現をスコアするブロックレベル粗いフィルタリングステージ,(2)元のインデクサを保持ブロック内でのみ適用するトークンレベル改良ステージを提案する。
HISAは、下流Sparse MLAオペレータが消費する同じトークンレベルのトップスパースパターンを保持し、追加のトレーニングを必要としない。
カーネルレベルのベンチマークでは、HISAは64Kコンテキストでの高速化を実現している。
Needle-in-a-HaystackとLongBenchでは、DeepSeek-V3.2とGLM-5のインデクサを直接HISAインデクサに置き換えます。
HISA はオリジナルの DSA の質と密に一致しているが、ブロックスパースベースラインは大幅に上回っている。
関連論文リスト
- IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse [68.18308357205586]
Longcontext Agenticは、大規模言語モデルの定義ユースケースとして登場した。
Sparseは、この課題を効果的に解決し、DeepSeek Sparse Attention(DSA)は、代表的なプロダクショングレードソリューションである。
我々は、レイヤを独自のインデクサを実行するフルレイヤの小さなセットと、最も近いフルレイヤのトップkインデックスを単純に再利用する共有レイヤの大多数に分割することで、層間の冗長性を利用するIndexCacheを紹介します。
論文 参考訳(メタデータ) (2026-03-12T17:27:21Z) - SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - HAKES: Scalable Vector Database for Embedding Search Service [16.034584281180006]
我々は,並列な読み書きワークロード下で高いスループットと高いリコールを実現するベクトルデータベースを構築した。
我々のインデックスは、高リコール領域と同時読み書きワークロード下でインデックスベースラインより優れています。
nameysはスケーラブルで、ベースラインよりも最大16タイムで高いスループットを実現します。
論文 参考訳(メタデータ) (2025-05-18T19:26:29Z) - RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval [24.472784635757016]
RetrievalAttentionは、注意計算を高速化し、GPUメモリ消費を減らすためのトレーニング不要のアプローチである。
RetrievalAttentionは1-3%のデータのみを必要としながら、ほぼ全注意精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-09-16T17:59:52Z) - Semi-Parametric Retrieval via Binary Bag-of-Tokens Index [71.78109794895065]
SemI-parametric Disentangled Retrieval (SiDR)は、ニューラルパラメータから検索インデックスを分離するバイエンコーダ検索フレームワークである。
SiDRは、検索のための非パラメトリックトークン化インデックスをサポートし、BM25のようなインデックス化の複雑さを著しく改善した。
論文 参考訳(メタデータ) (2024-05-03T08:34:13Z) - End-to-End Learning to Index and Search in Large Output Spaces [95.16066833532396]
Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。
本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-16T01:34:17Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。