論文の概要: Efficient Quantized Sparse Matrix Operations on Tensor Cores
- arxiv url: http://arxiv.org/abs/2209.06979v1
- Date: Wed, 14 Sep 2022 23:52:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:36:17.510104
- Title: Efficient Quantized Sparse Matrix Operations on Tensor Cores
- Title(参考訳): テンソルコア上の効率的な量子化スパース行列演算
- Authors: Shigang Li, Kazuki Osawa, Torsten Hoefler
- Abstract要約: 本稿では,コア上の低精度整数のための高性能スパース行列ライブラリMagicubeを提案する。
我々はMagicubeが、スパースカーネルのベンダー最適化ライブラリ上で平均1.44倍(最大2.37倍)のスピードアップを実現し、エンドツーエンドのTransformer推論に匹敵する精度で最先端の1.43倍のスピードアップを実現していることを示す。
- 参考スコア(独自算出の注目度): 21.963041375857117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponentially growing model size drives the continued success of deep
learning, but it brings prohibitive computation and memory cost. From the
algorithm perspective, model sparsification and quantization have been studied
to alleviate the problem. From the architecture perspective, hardware vendors
provide Tensor cores for acceleration. However, it is very challenging to gain
practical speedups from sparse, low-precision matrix operations on Tensor
cores, because of the strict requirements for data layout and lack of support
for efficiently manipulating the low-precision integers. We propose Magicube, a
high-performance sparse-matrix library for low-precision integers on Tensor
cores. Magicube supports SpMM and SDDMM, two major sparse operations in deep
learning with mixed precision. Experimental results on an NVIDIA A100 GPU show
that Magicube achieves on average 1.44x (up to 2.37x) speedup over the
vendor-optimized library for sparse kernels, and 1.43x speedup over the
state-of-the-art with a comparable accuracy for end-to-end sparse Transformer
inference.
- Abstract(参考訳): 指数関数的に増加するモデルサイズは、ディープラーニングの成功を継続させるが、計算の禁止とメモリコストをもたらす。
アルゴリズムの観点からは、問題を緩和するためにモデルスパース化と量子化が研究されている。
アーキテクチャの観点からは、ハードウェアベンダーはアクセラレーションのためにテンソルコアを提供する。
しかし、データレイアウトの厳格な要件と、低精度整数を効率的に操作するサポートの欠如のため、テンソルコア上でのスパースで低精度な行列操作から実用的なスピードアップを得ることは非常に困難である。
本稿では,テンソルコア上の低精度整数に対する高性能スパース行列ライブラリMagicubeを提案する。
Magicubeは、深層学習と混合精度の2つの主要なスパース操作であるSpMMとSDDMMをサポートしている。
nvidia a100 gpuの実験結果によると、magicubeは、スパースカーネルのベンダー最適化ライブラリ上で平均1.44倍(最大2.37倍)のスピードアップを達成し、エンドツーエンドスパーストランスフォーメーションの精度に匹敵する1.43倍のスピードアップを達成している。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - TorchSparse++: Efficient Training and Inference Framework for Sparse
Convolution on GPUs [20.4238781638402]
スパース畳み込みは、AR/VRにおけるポイントクラウド処理、自動運転、レコメンデーションシステムにおけるグラフ理解など、新興ワークロードにおいて重要な役割を果たす。
既存のGPUライブラリはスパース畳み込みのための2つのデータフロー型を提供する。
TorchSparse++は、両方の世界のベストを達成するための新しいGPUライブラリです。
論文 参考訳(メタデータ) (2023-10-25T21:02:38Z) - VENOM: A Vectorized N:M Format for Unleashing the Power of Sparse Tensor
Cores [19.28753465771938]
本稿では,ディープラーニングルーチンのための高性能スパースライブラリであるSpathaが,cuBLASの最大37倍の高速化を実現していることを示す。
また, 現代の変圧器において, V:N:Mと高間隔比のスパシフィケーションが可能であり, 精度の低下がほとんど, ほとんどない2次プルーニング手法を実証した。
論文 参考訳(メタデータ) (2023-10-03T14:08:26Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - TorchSparse: Efficient Point Cloud Inference Engine [24.541195361633523]
本稿では,高性能なポイントクラウド推論エンジンであるTorchSparseを紹介する。
TorchSparseはスパース畳み込みの2つのボトルネック、すなわち不規則な計算とデータ移動を直接最適化する。
最先端のMinkowskiEngineとSpConvで、それぞれ1.6倍と1.5倍のエンドツーエンドのスピードアップを実現している。
論文 参考訳(メタデータ) (2022-04-21T17:58:30Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z) - Sparse GPU Kernels for Deep Learning [24.94153856081836]
ディープラーニングアプリケーションは、既存のスパースカーネルが密度の高いカーネルを上回るほど、比較的適度なスパーシティを持つ。
ニューラルネットワークに適用可能な2つのスパース行列演算のための高性能GPUカーネルを開発した。
カーネルを用いて、1.2-2.1倍のスピードアップと最大12.8倍のメモリ節約が可能なスパーストランスフォーマーとMobileNetモデルを、精度を犠牲にすることなく示す。
論文 参考訳(メタデータ) (2020-06-18T23:59:11Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。