論文の概要: VENOM: A Vectorized N:M Format for Unleashing the Power of Sparse Tensor
Cores
- arxiv url: http://arxiv.org/abs/2310.02065v1
- Date: Tue, 3 Oct 2023 14:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 13:57:18.569442
- Title: VENOM: A Vectorized N:M Format for Unleashing the Power of Sparse Tensor
Cores
- Title(参考訳): VENOM:Sparse Tensor Coreのパワーを解放するためのベクトル化されたN:Mフォーマット
- Authors: Roberto L. Castro, Andrei Ivanov, Diego Andrade, Tal Ben-Nun, Basilio
B. Fraguela, Torsten Hoefler
- Abstract要約: 本稿では,ディープラーニングルーチンのための高性能スパースライブラリであるSpathaが,cuBLASの最大37倍の高速化を実現していることを示す。
また, 現代の変圧器において, V:N:Mと高間隔比のスパシフィケーションが可能であり, 精度の低下がほとんど, ほとんどない2次プルーニング手法を実証した。
- 参考スコア(独自算出の注目度): 19.28753465771938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing success and scaling of Deep Learning models demands higher
computational efficiency and power. Sparsification can lead to both smaller
models as well as higher compute efficiency, and accelerated hardware is
becoming available. However, exploiting it efficiently requires kernel
implementations, pruning algorithms, and storage formats, to utilize hardware
support of specialized sparse vector units. An example of those are the
NVIDIA's Sparse Tensor Cores (SPTCs), which promise a 2x speedup. However,
SPTCs only support the 2:4 format, limiting achievable sparsity ratios to 50%.
We present the V:N:M format, which enables the execution of arbitrary N:M
ratios on SPTCs. To efficiently exploit the resulting format, we propose
Spatha, a high-performance sparse-library for DL routines. We show that Spatha
achieves up to 37x speedup over cuBLAS. We also demonstrate a second-order
pruning technique that enables sparsification to high sparsity ratios with
V:N:M and little to no loss in accuracy in modern transformers.
- Abstract(参考訳): ディープラーニングモデルの成功とスケーリングの増加は、より高い計算効率とパワーを必要とする。
スパーシフィケーションは、より小さなモデルと高い計算効率をもたらす可能性があり、ハードウェアの高速化が進んでいる。
しかし、これを効率的に活用するには、特別なスパースベクトルユニットのハードウェアサポートを利用するために、カーネル実装、プルーニングアルゴリズム、ストレージフォーマットが必要である。
その例として、NVIDIAのスパーステンソルコア(SPTC)があり、2倍のスピードアップを約束している。
しかし、SPTCは2:4フォーマットしかサポートせず、達成可能な間隔比を50%に制限している。
本稿では,SPTC上で任意のN:M比の実行を可能にするV:N:Mフォーマットを提案する。
そこで本稿では,dlルーチンのための高性能スパースライブラリであるspathaを提案する。
SpathaはcuBLASの最大37倍のスピードアップを達成した。
また, 現代の変圧器において, V:N:Mと高間隔比のスパシフィケーションが可能であり, 精度を損なうことはほとんどない。
関連論文リスト
- An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - FFSplit: Split Feed-Forward Network For Optimizing Accuracy-Efficiency
Trade-off in Language Model Inference [57.119047493787185]
本稿では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56times$wall clock time speedupを無視できる精度低下で実現する方法を示す。
実際、本手法では、異なるハードウェア上で、モデルサイズを43.1%削減し、1.25sim1.56Times$wall clock time speedupを無視できる精度で実現している。
論文 参考訳(メタデータ) (2024-01-08T17:29:16Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and
Favorable Transferability For ViTs [79.54107547233625]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高精度かつ高速な推論速度を実現するViTのジョイント圧縮手法を提案する。
提案手法は,様々な ViT にまたがって最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - Efficient Quantized Sparse Matrix Operations on Tensor Cores [21.963041375857117]
本稿では,コア上の低精度整数のための高性能スパース行列ライブラリMagicubeを提案する。
我々はMagicubeが、スパースカーネルのベンダー最適化ライブラリ上で平均1.44倍(最大2.37倍)のスピードアップを実現し、エンドツーエンドのTransformer推論に匹敵する精度で最先端の1.43倍のスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2022-09-14T23:52:13Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - Accelerating DNN Training with Structured Data Gradient Pruning [0.5801044612920815]
ウェイトプルーニング(Weight pruning)は、ディープニューラルネットワーク(DNN)の推論をより効率的にする手法である。
Nvidia A100 GPUのような現代のアクセラレーターは、このタイプの構造化された空間を4要素あたり2つの非ゼロでサポートしている。
提案手法は,性能に大きな影響を与えることなく,全トレーニング時間を15~25%削減することができる。
論文 参考訳(メタデータ) (2022-02-01T21:41:51Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Accelerating Sparse Deep Neural Networks [20.6942347219753]
本研究では,密度行列ユニットの計算スループットを2倍にする2:4 (25%) のスパースパターンを利用したスパースコアの設計と挙動を示す。
また,2:4のスパーシティパターン要件を満たすネットワークをトレーニングし,精度を維持するための簡単なワークフローについても述べる。
論文 参考訳(メタデータ) (2021-04-16T21:27:32Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z) - When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity [0.0]
本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
論文 参考訳(メタデータ) (2020-11-12T10:13:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。