論文の概要: StreamIndex: Memory-Bounded Compressed Sparse Attention via Streaming Top-k
- arxiv url: http://arxiv.org/abs/2605.02568v1
- Date: Mon, 04 May 2026 13:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.298325
- Title: StreamIndex: Memory-Bounded Compressed Sparse Attention via Streaming Top-k
- Title(参考訳): StreamIndex: トップkのストリーミングによるメモリ境界圧縮スパースアテンション
- Authors: Jaber Jaber, Osama Jaber,
- Abstract要約: DeepSeek-V3.2およびV4では、圧縮スパース注意(Compressed Sparse Attention, CSA)が導入されている。
本稿では,CSAパイプラインのトリトン実装であるStreamIndexについて紹介する。
私たちのコントリビューションはインデクサのステップをターゲットにしています。より高速な注目カーネルや実チェックポイントのエンド・ツー・エンドの動作の主張はしません。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DeepSeek-V3.2 and V4 introduce Compressed Sparse Attention (CSA): a lightning indexer (a learned scoring projection over compressed keys) scores them, the top-k are selected per query, and a sparse attention kernel reads only those. Public CSA implementations materialize a [B, S, H_I, T] FP32 score tensor before the top-k reduction. With H_I=64 indexer heads and the V4-Flash compression ratio m=4, that intermediate is 256 GB at sequence length S=65,536, exceeding any single-GPU high-bandwidth-memory (HBM) budget. We present StreamIndex, a Triton implementation of the CSA pipeline whose central component is a chunked partition-merge top-k driver that never materializes the full intermediate. On synthetic-but-realistic V4-shaped inputs at the indexer-step (layer) level on a single NVIDIA H200, the materialize path runs out of memory (OOMs) at S=65,536 with V4-Flash dimensions; StreamIndex runs the same indexer to S=1,048,576 with 6.21 GB peak HBM, a 32x regime extension. Set-overlap recall against the materialize ground truth is bit-exact at small S where both fit; across three 5-point design-space sweeps (chunk size, key-tile size, top-k), mean recall rounds to 1.0000 with min recall at least 0.9980 in every cell. The chunked driver composes with TileLang's pipelined attention kernel: at S=262,144 with V4-Flash dimensions, the materialize indexer paired with TileLang attention OOMs while the chunked indexer paired with the same attention runs in 1.97 s at 18.56 GB peak. Our contribution targets the indexer step; we make no claim of a faster attention kernel or of real-checkpoint end-to-end behavior. Code: https://github.com/RightNow-AI/StreamIndex.
- Abstract(参考訳): DeepSeek-V3.2およびV4では、圧縮スパース注意(Compressed Sparse Attention, CSA)が導入されている。
パブリックCSA実装は、[B,S,H_I,T]FP32スコアテンソルをトップk縮小前に具現化する。
H_I=64インデクサヘッドとV4-Flash圧縮比m=4では、中間はシーケンス長S=65,536で256GBであり、HBM(シングルGPU高帯域メモリ)の予算を超える。
本稿では,CSAパイプラインのトリトン実装であるStreamIndexについて紹介する。
1つのNVIDIA H200上のインデクサステップ(層)レベルでの合成現実的なV4字入力では、物質化パスは、V4-Flash次元を持つS=65,536のメモリ(OOM)を使い果たし、StreamIndexは同じインデクサをS=1,048,576に、32xレギュレータ拡張である6.21GBのピークHBMで実行する。
5点のデザインスペーススイープ(チャンクサイズ、キータイルサイズ、トップ-k)の平均リコールラウンドは、各セルで最低でも0.9980ミンリコールとなる。
チャンクされたドライバは、TileLangのパイプライン化されたアテンションカーネルで構成される: S=262,144とV4-Flashディメンションでは、マテリアライズインデクサとTileLangのアテンションOOMがペアリングされ、チャンクされたインデクサとペアリングされたインデクサは18.56GBのピークで1.97sで動作する。
私たちのコントリビューションはインデクサのステップをターゲットにしています。より高速な注目カーネルや実チェックポイントのエンド・ツー・エンドの動作の主張はしません。
コード:https://github.com/RightNow-AI/StreamIndex.com
関連論文リスト
- Open-TQ-Metal: Fused Compressed-Domain Attention for Long-Context LLM Inference on Apple Silicon [0.0]
我々は、Apple Siliconに融合圧縮ドメインアテンションの最初の実装であるOpen-TQ-Metalを紹介する。
Llama 3.1 70Bの128Kコンテクスト推論を可能にする。
Open-TQ-MetalはKVキャッシュをオンザフライでInt4に量子化し、圧縮された表現に直接注意を計算する。
論文 参考訳(メタデータ) (2026-04-18T10:39:28Z) - Breaking the KV Cache Bottleneck: Fan Duality Model Achieves O(1) Decode Memory with Superior Associative Recall [0.0]
Fan Duality Modelは、シーケンスモデリングにおけるメモリ効率と連想リコールの間の緊張を解消する。
FDMはシーケンス処理を、長距離パターンを隠蔽状態に圧縮する波動成分と、特定のトークンを取得する粒子成分の2つのコンポーネントに分割する。
本稿では,再帰的なスキャンを凍結し,キャッシュを埋め込みと共に最適化する2段階のトレーニング戦略であるFreeze-Scanを提案する。
論文 参考訳(メタデータ) (2026-04-09T02:00:30Z) - FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling [20.849774181776414]
FlashAttention-4はcuDNN 9.13で最大1.3$times$、BF16でB200 GPUで2.7$times$Tritonで最大2.7$times$を達成している。
従来のC++テンプレートベースのアプローチと比較して20~30$times$高速なコンパイルタイムを実現しています。
論文 参考訳(メタデータ) (2026-03-05T18:24:49Z) - FuseSampleAgg: Fused Neighbor Sampling and Aggregation for Mini-batch GNNs [51.56484100374058]
FuseSampleAggは、隣人の平均アグリゲーションをGraphSAGEの1つのパスにフューズし、サンプリングする。
Operatorは決定論的であり、標準のPyTorchと統合され、CSVログからすべてのテーブルとフィギュアを再現するスクリプトが同梱されている。
論文 参考訳(メタデータ) (2025-11-17T17:57:18Z) - FG-Attn: Leveraging Fine-Grained Sparsity In Diffusion Transformers [6.260564859775371]
長文拡散変換器のスパースアテンション機構であるFG-Attnを提案する。
本手法は注意マップのMx1スライス粒度の計算を省略する。
5秒、480pの動画で平均1.55倍のスピードアップを達成し、1つのH100 GPUで平均1.41倍の5秒、720pのビデオで平均1.41倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2025-09-20T03:48:32Z) - Infini-gram mini: Exact n-gram Search at the Internet Scale with FM-Index [110.90283601829724]
ペタバイトレベルのテキストコーパスを検索可能にするシステムであるinfini-gram miniを提案する。
FMインデックスデータ構造に基づいて,本システムはコーパスの44%の大きさのインデックスを生成する。
ベンチマーク汚染の大規模解析において重要なユースケースが1つある。
論文 参考訳(メタデータ) (2025-06-13T21:13:57Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。