論文の概要: Stochastic Sparse Attention for Memory-Bound Inference
- arxiv url: http://arxiv.org/abs/2605.01910v1
- Date: Sun, 03 May 2026 14:44:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.989964
- Title: Stochastic Sparse Attention for Memory-Bound Inference
- Title(参考訳): メモリ境界推論のための確率的スパースアテンション
- Authors: Kyle Lee, Corentin Delacour, Kevin Callahan-Coray, Kyle Jiang, Can Yaras, Samet Oymak, Tathagata Srimani, Kerem Y. Camsari,
- Abstract要約: SANTA(Additive No-mult Attention)は,ソフトマックス後の分布から$S ll n_k$インデックスをサンプリングすることで,値キャッシュアクセスを分散する手法である。
また、スコアステージをスパース化するための補完手法としてBernoulli $qKmathsfT$サンプリングを提案する。
- 参考スコア(独自算出の注目度): 19.301894658575502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive decoding becomes bandwidth-limited at long contexts, as generating each token requires reading all $n_k$ key and value vectors from KV cache. We present Stochastic Additive No-mulT Attention (SANTA), a method that sparsifies value-cache access by sampling $S \ll n_k$ indices from the post-softmax distribution and aggregates only those value rows. This yields an unbiased estimator of the post-softmax value aggregation while replacing value-stage multiply-accumulates with gather-and-add. We introduce stratified sampling to design variance-reduced, GPU-friendly variants, demonstrating $1.5\times$ decode-step attention kernel speedup over FlashInfer and FlashDecoding on an NVIDIA RTX 6000 Ada while matching baseline accuracy at 32k-token contexts. Finally, we propose Bernoulli $qK^\mathsf{T}$ sampling as a complementary technique to sparsify the score stage, reducing key-feature access through stochastic ternary queries. Both methods are orthogonal to upstream techniques such as ternary quantization, low-rank projections, and KV-cache compression. Together, they point toward sparse, multiplier-free, and energy-efficient inference. We open-source our kernels at: https://github.com/OPUSLab/SANTA.git
- Abstract(参考訳): 自動回帰復号は、KVキャッシュからすべての$n_k$キーと値ベクトルを読み取る必要があるため、長いコンテキストで帯域幅に制限される。
Indices by sample $S \ll n_k$ indices from the post-softmax distribution and aggregates that value rows。
これにより、値ステージの乗算積を集合と加算に置き換えながら、ポストソフトマックス値のアグリゲーションの偏りのない推定値が得られる。
我々は,分散リデュースされたGPUフレンドリなモデルの設計に階層化サンプリングを導入し,ベースライン精度を32k-tokenコンテキストで一致させながら,FlashInfer と FlashDecoding 上でのdecode-step attention kernel の高速化を実現した。
最後に,Bernoulli $qK^\mathsf{T}$ サンプリングを相補的手法として提案する。
どちらの手法も直交する3次量子化、低ランク射影、KV-cache圧縮などの上流技術である。
共に、スパース、乗算子なし、エネルギー効率のよい推論を指している。
私たちはカーネルをhttps://github.com/OPUSLab/SANTA.gitでオープンソース化しました。
関連論文リスト
- Scaling Attention via Feature Sparsity [50.64995497733461]
超長期のコンテキストにトランスフォーマーをスケールすることは、自己注意のコスト$O(n2 d)$コストによってボトルネックとなる。
本稿では,高次元表現性を維持するために,クエリとキーを$k$sparseコードとして表現するスパース特徴注意法を提案する。
GPT-2とQwen3の事前トレーニングで、SFAは密度の高いベースラインにマッチし、最高2.5タイムのスピードを向上し、FLOPとKVキャッシュを50%近く削減した。
論文 参考訳(メタデータ) (2026-03-17T08:41:50Z) - FlashSampling: Fast and Memory-Efficient Exact Sampling [62.5203057469482]
FlashSamplingは正確なサンプリングプリミティブで、LMヘッドのマトゥルにサンプリングを融合し、ロジットテンソルを生成しない。
H100、H200、B200、B300 GPU全体で、FlashSamplingはカーネルレベルのデコードワークロードを高速化する。
エンドツーエンドのvLLM実験では、テストしたモデルで出力トークン当たりの時間を最大19%削減します。
論文 参考訳(メタデータ) (2026-03-16T19:37:08Z) - Parallel Sampling via Autospeculation [13.643401888306398]
我々は,任意の順序の自己回帰モデルと拡散モデルという2つの設定において,サンプリングを高速化するアルゴリズムを提案する。
オラクルコールを並列に発行することで、期待されるサンプリング時間を$widetildeO(n1/2)$に削減できることを示す。
我々は投機的拒絶サンプリングという新しい手法を導入する。
論文 参考訳(メタデータ) (2025-11-11T06:09:44Z) - Debiased Distribution Compression [30.600795754425775]
本稿では, バイアス入力シーケンスによる圧縮に適した新しい圧縮手法を提案する。
バーンイン,近似マルコフ連鎖モンテカルロ,テンパリングによるバイアスを克服しつつ,簡潔かつ正確な後続サマリーを提供する。
論文 参考訳(メタデータ) (2024-04-18T16:11:16Z) - Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。
各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。
第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。