論文の概要: DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention
- arxiv url: http://arxiv.org/abs/2605.18753v1
- Date: Mon, 18 May 2026 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.234687
- Title: DashAttention: Differentiable and Adaptive Sparse Hierarchical Attention
- Title(参考訳): DashAttention: 微分可能かつ適応的スパース階層的注意
- Authors: Yuxiang Huang, Nuno M. T. Gonçalves, Federico Alvetreti, Lei Li, Xu Han, Edoardo M. Ponti, André F. T. Martins, Marcos V. Treviso,
- Abstract要約: DashAttentionは分散性がなく、より長いコンテキストモデリング能力に変換される。
DashAttention は 75% の間隔で全注目の精度を達成できることを示す。
また、TritonにおけるDashAttentionのGPU対応の効率的な実装も提供します。
- 参考スコア(独自算出の注目度): 33.94045045871083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current hierarchical attention methods, such as NSA and InfLLMv2, select the top-k relevant key-value (KV) blocks based on coarse attention scores and subsequently apply fine-grained softmax attention on the selected tokens. However, the top-k operation assumes the number of relevant tokens for any query is fixed and it precludes the gradient flow between the sparse and dense stages. In this work, we propose DashAttention (Differentiable and Adaptive Sparse Hierarchical Attention), which leverages the adaptively sparse $α$-entmax transformation to select a variable number of blocks according to the current query in the first stage. This in turn provides a prior for the second-stage softmax attention, keeping the entire hierarchy fully differentiable. Contrary to other hierarchical attention methods, we show that DashAttention is non-dispersive, translating to better long-context modeling ability. Experiments with large language models (LLMs) show that DashAttention achieves comparable accuracy as full attention with 75% sparsity and a better Pareto frontier than NSA and InfLLMv2, especially in high-sparsity regimes. We also provide an efficient, GPU-aware implementation of DashAttention in Triton, which achieves a speedup of up to over FlashAttention-3 at inference time. Overall, DashAttention offers a cost-effective strategy to model long contexts.
- Abstract(参考訳): NSAやInfLLMv2といった現在の階層的アテンション手法では、粗いアテンションスコアに基づいてトップk関連キー値(KV)ブロックを選択し、選択したトークンに細かなソフトマックスアテンションを適用する。
しかし、トップk演算は、クエリに関連するトークンの数が固定されていると仮定し、スパースと高密度ステージの間の勾配の流れを妨げている。
本研究では,DashAttention (Differentiable and Adaptive Sparse Hierarchical Attention) を提案する。
これにより、第2ステージのソフトマックスの注目が優先され、階層全体が完全に差別化可能である。
他の階層的注意法とは対照的に、DashAttentionは分散性がなく、より長いコンテキストモデリング能力に変換可能であることを示す。
大規模な言語モデル(LLMs)による実験では、DashAttentionは、特に高疎度な体制において、75%の空間性とNSAやInfLLMv2よりも優れたParetoフロンティアで、ほぼ同等の精度を達成している。
また,TritonにおけるDashAttentionのGPUによる効率的な実装も提供し,推論時に最大でFlashAttention-3の高速化を実現する。
全体として、DashAttentionは長いコンテキストをモデル化するためのコスト効率の良い戦略を提供する。
関連論文リスト
- LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models [49.93891888238178]
ブロックワイド拡散言語モデル(DLM)は任意の順序で複数のトークンを生成し、自動回帰復号パイプラインに代わる有望な代替手段を提供する。
異なるクエリが異なるプレフィックス位置を選択する場合、KVインフレーション問題により、DLM上では裸のスパースアテンションが失敗する。
キャッシュされたプレフィックスアテンション結果を安定したトークンに再利用し、アクティブトークンのみにスパースアテンションを適用するLOSA(Locality-aware Sparse Attention)を提案する。
論文 参考訳(メタデータ) (2026-04-13T20:53:51Z) - SOCKET: SOft Collison Kernel EsTimator for Sparse Attention [25.278711498381494]
長期コンテキスト推論におけるスパシティの爆発は、大規模言語モデルのスケーリングの中心となる。
Locality-Sensitive Hashing (LSH) はスパシフィケーションプリミティブであり、確率的、類似性を認識したアグリゲーションに適合するハードバケットを置き換える。
SOCKETはSoft Collision EsTimatorで、ハードバケットのマッチを確率的、類似性を考慮したアグリゲーションに置き換える。
論文 参考訳(メタデータ) (2026-02-06T00:41:44Z) - FASA: Frequency-aware Sparse Attention [56.26881872333624]
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T06:09:06Z) - OmniSparse: Training-Aware Fine-Grained Sparse Attention for Long-Video MLLMs [43.78743496579736]
OmniSparseは、長時間ビデオMLLMのための、トレーニング対応のきめ細かなスパークアテンションフレームワークである。
実験結果から,OmniSparseはプリフィル時の2.7倍,デコード時の2.4倍のメモリ削減を実現しつつ,全注目性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-11-15T13:14:17Z) - Long-Context Generalization with Sparse Attention [21.400056571592277]
トランスフォーマーベースのアーキテクチャは、伝統的に注意重みを計算するためにソフトマックスを使用している。
シーケンス長が増加するにつれて、非情報的トークンは注意確率の質量を蓄積し、分散と表現的崩壊をもたらす。
我々は、$alpha$-entmaxを使って動的にスパースな注意機構がこれらの問題を回避できることを示し、これは、無関係トークンに正確なゼロを割り当てる能力のためである。
論文 参考訳(メタデータ) (2025-06-19T22:43:25Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。