論文の概要: Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light
- arxiv url: http://arxiv.org/abs/2504.16922v1
- Date: Wed, 23 Apr 2025 17:49:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 14:56:16.726998
- Title: Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light
- Title(参考訳): 一般近所の注意:光速における多次元スパース注意
- Authors: Ali Hassani, Fengzhe Zhou, Aditya Kane, Jiannan Huang, Chieh-Yun Chen, Min Shi, Steven Walton, Markus Hoehnerbach, Vijay Thakkar, Michael Isaev, Qinsheng Zhang, Bing Xu, Haicheng Wu, Wen-mei Hwu, Ming-Yu Liu, Humphrey Shi,
- Abstract要約: Generalized Neighborhood Attention (GNA)は、スライディングウインドウ、ストライドスライディングウインドウ、ブロッキングアテンションを記述できる。
GNAは、微調整なしで、B200上で28%から46%のエンドツーエンドのスピードアップを提供できる。
CUTLASSのNVIDIA Blackwellアーキテクチャ用に設計されたFMHAカーネル上にGNAを実装した。
- 参考スコア(独自算出の注目度): 34.07881344845357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many sparse attention mechanisms such as Neighborhood Attention have typically failed to consistently deliver speedup over the self attention baseline. This is largely due to the level of complexity in attention infrastructure, and the rapid evolution of AI hardware architecture. At the same time, many state-of-the-art foundational models, particularly in computer vision, are heavily bound by attention, and need reliable sparsity to escape the O(n^2) complexity. In this paper, we study a class of promising sparse attention mechanisms that focus on locality, and aim to develop a better analytical model of their performance improvements. We first introduce Generalized Neighborhood Attention (GNA), which can describe sliding window, strided sliding window, and blocked attention. We then consider possible design choices in implementing these approaches, and create a simulator that can provide much more realistic speedup upper bounds for any given setting. Finally, we implement GNA on top of a state-of-the-art fused multi-headed attention (FMHA) kernel designed for the NVIDIA Blackwell architecture in CUTLASS. Our implementation can fully realize the maximum speedup theoretically possible in many perfectly block-sparse cases, and achieves an effective utilization of 1.3 petaFLOPs/second in FP16. In addition, we plug various GNA configurations into off-the-shelf generative models, such as Cosmos-7B, HunyuanVideo, and FLUX, and show that it can deliver 28% to 46% end-to-end speedup on B200 without any fine-tuning. We will open source our simulator and Blackwell kernels directly through the NATTEN project.
- Abstract(参考訳): 近隣の注意のような多くのまばらな注意機構は、通常、常に自己注意ベースラインをスピードアップすることができない。
これは主に、注目インフラストラクチャの複雑さのレベルと、AIハードウェアアーキテクチャの急速な進化によるものだ。
同時に、多くの最先端の基礎モデル、特にコンピュータビジョンは、注意に強く縛られ、O(n^2) の複雑さから逃れるためには信頼性の高い空間性が必要である。
本稿では,局所性に着目したスパークアテンション機構のクラスについて検討し,その性能改善のより優れた分析モデルの開発を目的とする。
本稿ではまず, すべり窓, 傾き窓, 遮蔽窓を記述できる一般化近傍注意(GNA)について紹介する。
次に、これらの手法の実装において可能な設計選択を検討し、任意の設定に対してより現実的なスピードアップ上限を提供するシミュレータを作成する。
最後に,CUTLASSのNVIDIA Blackwellアーキテクチャ用に設計されたFMHAカーネル上にGNAを実装した。
提案手法は,多くの完全ブロックスパースの場合において理論上可能な最大スピードアップを実現し,FP16において1.3ペタFLOPs/秒の有効利用を実現する。
さらに,各種GNA構成をCosmos-7B,HunyuanVideo,FLUXなどの既製の生成モデルにプラグインし,微調整なしでB200上で28%から46%のエンドツーエンドのスピードアップを提供できることを示す。
我々はNATTENプロジェクトを通してシミュレータとBlackwellカーネルを直接オープンソース化する。
関連論文リスト
- S2-Attention: Hardware-Aware Context Sharding Among Attention Heads [49.1454481007861]
スパースアテンションは、コンテキスト内のトークンのサブセットに選択的に出席する。
スパース・アテンションが今日の大規模言語モデルでモデルの品質を維持することができるかどうかは不明だ。
本稿では,Sparsely-Sharded(S2) attention, a Triton library that provide kernel optimization for sparse attention for sparse attention to customizable per-head and per-context-range levels。
論文 参考訳(メタデータ) (2024-07-25T00:27:07Z) - Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level [30.681204292813998]
近隣の注意は、それぞれのトークンの注意を隣人に限定することで、自己注意のコストを減少させる。
我々は,近隣の注意を,標準的な注意と同様のバッチGEMM問題として表すことができることを示した。
我々は、異なる空間軸をまたいだ注意をきめ細かく制御できる、融合したドット積アテンションカーネルを適応した、融合した近隣アテンションを開発する。
論文 参考訳(メタデータ) (2024-03-07T17:35:58Z) - DiviML: A Module-based Heuristic for Mapping Neural Networks onto
Heterogeneous Platforms [5.970091958678456]
我々は、ディープニューラルネットワーク(DNN)を複数の相互接続ハードウェアデバイスに分割するコンパイラレベルのアプローチを開発する。
我々のスケジューラは、MILP(Mixed integer linear programming)の定式化とモジュラリティベースのランタイムを通じて、正確な解法と統合する。
複数の異種サーバにまたがる大規模な言語モデルをスケジュールするために、フレームワークをどのように拡張できるかを示します。
論文 参考訳(メタデータ) (2023-07-31T19:46:49Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Dynamic N:M Fine-grained Structured Sparse Attention Mechanism [21.74230717276263]
トランスフォーマーは、NLPやコンピュータビジョンといった様々なタスクのメインストリームのソリューションになりつつある。
その成功にもかかわらず、注意機構の複雑さは、レイテンシに敏感なタスクに適用されることを妨げる。
DFSSは,N:M微細構造パターンに注意行列を動的に呈示するアテンション機構である。
論文 参考訳(メタデータ) (2022-02-28T20:52:24Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z) - Does Form Follow Function? An Empirical Exploration of the Impact of
Deep Neural Network Architecture Design on Hardware-Specific Acceleration [76.35307867016336]
本研究では,深層ニューラルネットワーク設計が推論速度向上の程度に与える影響について検討する。
ハードウェア固有のアクセラレーションを活用することで平均推論速度が380%向上する一方で、マクロアーキテクチャ設計パターンによって推論速度が大幅に変化することを示した。
論文 参考訳(メタデータ) (2021-07-08T23:05:39Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。