論文の概要: FlashSparse: Minimizing Computation Redundancy for Fast Sparse Matrix Multiplications on Tensor Cores
- arxiv url: http://arxiv.org/abs/2412.11007v1
- Date: Sun, 15 Dec 2024 01:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:54:40.463321
- Title: FlashSparse: Minimizing Computation Redundancy for Fast Sparse Matrix Multiplications on Tensor Cores
- Title(参考訳): FlashSparse: テンソルコア上の高速なスパース行列乗算のための計算冗長性の最小化
- Authors: Jinliang Shi, Shigang Li, Youxuan Xu, Rongtian Fu, Xueying Wang, Tong Wu,
- Abstract要約: 我々は、スパースワークロードとTCUアーキテクチャのギャップを埋める新しいアプローチであるFlashSparseを提案する。
特に、FlashSparseは、新しいスワップ・アンド・トランスポーション行列乗算戦略により、TCUs上のSpMMとSDDMMのスパース粒度を最小化する。
我々はFlashSparseがスパース行列乗算のための新しい最先端技術(幾何学平均はDTC-SpMMより5.5倍、RoDeより3.22倍)をセットしていることを示す。
- 参考スコア(独自算出の注目度): 6.404201720333765
- License:
- Abstract: Sparse Matrix-matrix Multiplication (SpMM) and Sampled Dense-dense Matrix Multiplication (SDDMM) are important sparse operators in scientific computing and deep learning. Tensor Core Units (TCUs) enhance modern accelerators with superior computing power, which is promising to boost the performance of matrix operators to a higher level. However, due to the irregularity of unstructured sparse data, it is difficult to deliver practical speedups on TCUs. To this end, we propose FlashSparse, a novel approach to bridge the gap between sparse workloads and the TCU architecture. Specifically, FlashSparse minimizes the sparse granularity for SpMM and SDDMM on TCUs through a novel swap-and-transpose matrix multiplication strategy. Benefiting from the minimum sparse granularity, the computation redundancy is remarkably reduced while the computing power of TCUs is fully utilized. Besides, FlashSparse is equipped with a memory-efficient thread mapping strategy for coalesced data access and a sparse matrix storage format to save memory footprint. Extensive experimental results on H100 and RTX 4090 GPUs show that FlashSparse sets a new state-of-the-art for sparse matrix multiplications (geometric mean 5.5x speedup over DTC-SpMM and 3.22x speedup over RoDe).
- Abstract(参考訳): Sparse Matrix-Matrix Multiplication (SpMM) とSampred Dense-Dense Matrix Multiplication (SDDMM) は科学計算とディープラーニングにおいて重要なスパース演算子である。
Tensor Core Units (TCU) は、行列演算子の性能をより高いレベルに向上させることを約束する、優れた計算能力を持つ現代のアクセラレーターを強化する。
しかし,非構造化スパースデータの不規則性のため,TCU上での実際の高速化は困難である。
この目的のために、スパースワークロードとTCUアーキテクチャのギャップを埋める新しいアプローチであるFlashSparseを提案する。
特に、FlashSparseは、新しいスワップ・アンド・トランスポーション行列乗算戦略により、TCUs上のSpMMとSDDMMのスパース粒度を最小化する。
最小スパース粒度から見れば、TCUの計算能力が十分に活用されている間、計算冗長性が著しく低下する。
さらに、FlashSparseは、合体したデータアクセスのためのメモリ効率のよいスレッドマッピング戦略と、メモリフットプリントを保存するためのスパースマトリックスストレージフォーマットを備えている。
H100 と RTX 4090 GPU の大規模な実験結果から、FlashSparse はスパース行列乗算(DTC-SpMM の5.5倍、RoDe の3.22倍のスピードアップ)の最先端を新たに設定している。
関連論文リスト
- SMM-Conv: Scalar Matrix Multiplication with Zero Packing for Accelerated Convolution [4.14360329494344]
本稿では、CPUアーキテクチャの推論中に畳み込みを加速するための新しいアプローチを提案する。
ネットワークアーキテクチャを用いた実験は,既存の間接手法に比べて大幅に高速化された。
論文 参考訳(メタデータ) (2024-11-23T21:43:38Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Fast inference with Kronecker-sparse matrices [4.387337528923525]
Kronecker-sparse行列による乗算のための最初のエネルギーおよび時間ベンチマークを示す。
私たちのベンチマークでは、メモリ書き換え操作に実行時の最大50%を特殊実装が費やしていることも示しています。
我々は,エネルギー消費を15%削減しつつ,x1.4の中央値の高速化を実現する新しいカーネルを実装した。
論文 参考訳(メタデータ) (2024-05-23T19:36:10Z) - Optimized Sparse Matrix Operations for Reverse Mode Automatic
Differentiation [3.72826300260966]
本稿では,PyTorch のための CSR ベースのスパース行列ラッパーの実装について述べる。
また,結果のスパースカーネルを最適化に応用し,実装や性能測定の容易さを高密度カーネルと比較した。
論文 参考訳(メタデータ) (2022-12-10T00:46:51Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。