論文の概要: When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity
- arxiv url: http://arxiv.org/abs/2011.06295v2
- Date: Sat, 17 Apr 2021 11:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 06:43:37.678420
- Title: When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity
- Title(参考訳): 非構造化空間を利用してGPU上のディープラーニングモデルを高速化できる場合
- Authors: Marcin Pietro\'n, Dominik \.Zurek
- Abstract要約: 本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is focused on the improvement the efficiency of the sparse
convolutional neural networks (CNNs) layers on graphic processing units (GPU).
The Nvidia deep neural network (cuDnn) library provides the most effective
implementation of deep learning (DL) algorithms for GPUs. GPUs are one of the
most efficient and commonly used accelerators for deep learning computations.
The modern CNN models need megabytes of coefficients and needed millions MAC
operations to perform convolution. One of the most common techniques for
compressing CNN models is weight pruning. There are two main types of pruning:
structural (based on removing whole weight channels) and non-structural
(removing individual weights). The first enables much easier acceleration, but
with this type it is difficult to achieve a sparsity level and accuracy as high
as that obtained with the second type. Non-structural pruning with retraining
can generate a matrix-weight up to $\sim90\%$ or more of sparsity in some deep
CNN models. This work shows when is worth using a direct sparse operation to
speed-up the calculation of the convolution layers. The VGG-16, CNN-non-static
and 1x1 layers from ResNet models were used as a benchmarks. In addition, we
present the impact of using reduced precision on time efficiency.
- Abstract(参考訳): 本稿では,グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の性能向上に着目する。
Nvidia Deep Neural Network (cuDnn)ライブラリは、GPUのためのディープラーニング(DL)アルゴリズムの最も効果的な実装を提供する。
GPUはディープラーニング計算の最も効率的で一般的なアクセラレータの1つである。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
CNNモデルを圧縮する最も一般的な手法の1つは、重み付けである。
プルーニングには2つの主な種類がある: 構造的(全体重みチャネルの除去に基づく)と非構造的(個々の重みを取り除く)である。
第1はより容易な加速を可能にするが、このタイプでは、第2のタイプで得られるような空間レベルと精度を達成することは困難である。
リトレーニングによる非構造的プラニングは、いくつかのディープcnnモデルで最大$\sim90\%$以上のスパーシティを生成することができる。
この研究は、直接スパース演算を用いて畳み込み層の計算を高速化する価値があるかを示す。
VGG-16、CNN非静的、およびResNetモデルの1x1層がベンチマークとして使用された。
また,時間効率の低下が時間効率に与える影響についても述べる。
関連論文リスト
- Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - Accelerating DNN Training with Structured Data Gradient Pruning [0.5801044612920815]
ウェイトプルーニング(Weight pruning)は、ディープニューラルネットワーク(DNN)の推論をより効率的にする手法である。
Nvidia A100 GPUのような現代のアクセラレーターは、このタイプの構造化された空間を4要素あたり2つの非ゼロでサポートしている。
提案手法は,性能に大きな影響を与えることなく,全トレーニング時間を15~25%削減することができる。
論文 参考訳(メタデータ) (2022-02-01T21:41:51Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Speedup deep learning models on GPU by taking advantage of efficient
unstructured pruning and bit-width reduction [0.0]
この研究は、いくつかの畳み込みニューラルネットワーク(CNN)の刈り取りと、グラフィック処理ユニット(GPU)におけるそれらの効率の改善に焦点を当てている。
Nvidia Deep Neural Network(cuDnn)ライブラリは、GPUのためのディープラーニングアルゴリズム(DL)の最も効果的な実装である。
論文 参考訳(メタデータ) (2021-12-28T19:36:41Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - L2PF -- Learning to Prune Faster [57.32153461504626]
本稿では,cnnの冗長フィルタを離散的に学習するマルチタスクのtry-and-learn法と,レイヤの微調整期間の連続的動作を提案する。
ResNet20では、最小精度で圧縮比3.84xを達成しました。
最先端プルーニング法と比較して,GPU時間を1.71倍に短縮した。
論文 参考訳(メタデータ) (2021-01-07T18:13:37Z) - SparseTrain: Exploiting Dataflow Sparsity for Efficient Convolutional
Neural Networks Training [34.657942518465575]
畳み込みニューラルネットワーク(CNN)の訓練は通常、大量の計算資源を必要とする。
そこで本論文では,SparseTrain を用いた CNN トレーニングの高速化について提案する。
我々は,CNNを textitSparseTrain にマッピングする %a の単純なコンパイラを構築した。
論文 参考訳(メタデータ) (2020-07-21T11:01:36Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - Performance Aware Convolutional Neural Network Channel Pruning for
Embedded GPUs [6.035819238203187]
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。
また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
論文 参考訳(メタデータ) (2020-02-20T12:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。