論文の概要: Fused3S: Fast Sparse Attention on Tensor Cores
- arxiv url: http://arxiv.org/abs/2505.08098v1
- Date: Mon, 12 May 2025 22:09:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.350586
- Title: Fused3S: Fast Sparse Attention on Tensor Cores
- Title(参考訳): Fused3S: Tensor Core上での高速スパースアテンション
- Authors: Zitong Li, Aparna Chandramowlishwaran,
- Abstract要約: 本稿では,テンソルコア利用を最大化し,データ移動を最小化する最初の融合3SアルゴリズムであるFused3Sを紹介する。
実世界のグラフデータセット全体にわたって、Fused3S $1.6-16.3times$と1.5-14times$H100とA30 GPUの最先端のスピードアップ。
- 参考スコア(独自算出の注目度): 3.6068301267188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse attention is a core building block in many leading neural network models, from graph-structured learning to sparse sequence modeling. It can be decomposed into a sequence of three sparse matrix operations (3S): sampled dense-dense matrix multiplication (SDDMM), softmax normalization, and sparse matrix multiplication (SpMM). Efficiently executing the 3S computational pattern on modern GPUs remains challenging due to (a) the mismatch between unstructured sparsity and tensor cores optimized for dense operations, and (b) the high cost of data movement. Previous works have optimized these sparse operations individually or addressed one of these challenges. This paper introduces Fused3S, the first fused 3S algorithm that jointly maximizes tensor core utilization and minimizes data movement. Across real-world graph datasets, Fused3S achieves $1.6- 16.3\times$ and $1.5-14\times$ speedup over state-of-the-art on H100 and A30 GPUs. Furthermore, integrating Fused3S into Graph Transformer inference accelerates end-to-end performance by $1.05-5.36\times$, consistently outperforming all 3S baselines across diverse datasets (single and batched graphs) and GPU architectures.
- Abstract(参考訳): スパースアテンションは、グラフ構造化学習からスパースシーケンスモデリングまで、多くの主要なニューラルネットワークモデルにおける中核的なビルディングブロックである。
サンプル密度行列乗算(SDDMM)、ソフトマックス正規化、スパース行列乗算(SpMM)の3つのスパース行列演算(3S)の列に分解することができる。
現代のGPU上での3S計算パターンの効率的な実行は依然として困難である。
(a)密接な操作に最適化された非構造空間とテンソルコアのミスマッチ
(b)データ移動のコストが高いこと。
以前の作業は、これらのスパース操作を個別に最適化したり、これらの課題の1つに対処したりしてきた。
本稿では,テンソルコア利用を最大化し,データ移動を最小化する最初の融合3SアルゴリズムであるFused3Sを紹介する。
実世界のグラフデータセット全体にわたって、Fused3Sは、H100とA30 GPUの最先端よりも1.6-16.3\times$と1.5-14\times$のスピードアップを達成した。
さらに、Fused3SをGraph Transformer推論に統合することで、エンドツーエンドのパフォーマンスが1.05-5.36\times$で向上し、さまざまなデータセット(シングルグラフとバッチグラフ)とGPUアーキテクチャの3Sベースラインを一貫して上回る。
関連論文リスト
- An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける技術性能の状態を導出する。
クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高構造スパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。
我々は、CGテンソル製品用のGPUスパースカーネルジェネレータを導入し、既存のオープンソース実装やクローズドソース実装よりも大幅に高速化する。
論文 参考訳(メタデータ) (2025-01-23T08:20:47Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Mesh Convolution with Continuous Filters for 3D Surface Parsing [101.25796935464648]
本稿では、3次元トライアングルメッシュから効果的な幾何学的特徴学習のための一連のモジュラー演算を提案する。
メッシュ畳み込みは球面調和を正規直交基底として利用し、連続畳み込みフィルタを生成する。
さらに,PicassoNet++という3次元表面の知覚解析のための新しい階層型ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-03T09:16:49Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。