論文の概要: Speedup deep learning models on GPU by taking advantage of efficient
unstructured pruning and bit-width reduction
- arxiv url: http://arxiv.org/abs/2112.15445v1
- Date: Tue, 28 Dec 2021 19:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-09 14:31:17.406382
- Title: Speedup deep learning models on GPU by taking advantage of efficient
unstructured pruning and bit-width reduction
- Title(参考訳): 効率的な非構造プルーニングとビット幅削減によるGPU上のディープラーニングモデルの高速化
- Authors: Marcin Pietro\'n, Dominik \.Zurek
- Abstract要約: この研究は、いくつかの畳み込みニューラルネットワーク(CNN)の刈り取りと、グラフィック処理ユニット(GPU)におけるそれらの効率の改善に焦点を当てている。
Nvidia Deep Neural Network(cuDnn)ライブラリは、GPUのためのディープラーニングアルゴリズム(DL)の最も効果的な実装である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work is focused on the pruning of some convolutional neural networks
(CNNs) and improving theirs efficiency on graphic processing units (GPU) by
using a direct sparse algorithm. The Nvidia deep neural network (cuDnn) library
is the most effective implementations of deep learning (DL) algorithms for
GPUs. GPUs are the most commonly used accelerators for deep learning
computations. One of the most common techniques for improving the efficiency of
CNN models is weight pruning and quantization. There are two main types of
pruning: structural and non-structural. The first enables much easier
acceleration on many type of accelerators, but with this type it is difficult
to achieve a sparsity level and accuracy as high as that obtained with the
second type. Non-structural pruning with retraining can generate a weight
tensors up to 90% or more of sparsity in some deep CNN models. In this article
the pruning algorithm is presented which makes it possible to achieve high
sparsity levels without accuracy drop. In the next stage the linear and
non-linear quantization is adapted for further time and footprint reduction.
This paper is an extended of previously published paper concerning effective
pruning techniques and present real models pruned with high sparsities and
reduced precision which can achieve better performance than the CuDnn library.
- Abstract(参考訳): 本研究は,いくつかの畳み込みニューラルネットワーク(cnns)のプルーニングと,直接スパースアルゴリズムを用いたグラフィック処理ユニット(gpu)の効率向上に焦点を当てている。
Nvidia Deep Neural Network(cuDnn)ライブラリは、GPUのためのディープラーニングアルゴリズム(DL)の最も効果的な実装である。
GPUはディープラーニング計算の最も一般的なアクセラレータである。
CNNモデルの効率を改善する最も一般的な手法の1つは、重み付けと量子化である。
プルーニングには構造と非構造という2つの主な種類がある。
1つ目は、多くのタイプの加速器でより容易に加速できるが、このタイプでは、第2のタイプで得られるようなスパーシティのレベルと精度を達成するのが困難である。
再トレーニングによる非構造的プルーニングは、いくつかのディープCNNモデルにおいて最大90%以上のヘビーテンソルを生成することができる。
本稿では,精度を低下させることなく高いスパーニングレベルを達成することができるpruningアルゴリズムを提案する。
次の段階では、線形および非線形量子化はさらなる時間とフットプリントの削減に適応する。
本論文は,CuDnnライブラリよりも優れた性能を実現するために,有効プルーニング技術と,高疎度でプルーニングされた実モデルに関する拡張論文である。
関連論文リスト
- Efficient Deep Learning with Decorrelated Backpropagation [1.9731499060686393]
Decorrelated backpropagationを用いた非常に深いニューラルネットワークのより効率的なトレーニングが実現可能であることを初めて示します。
我々は18層深層ネットワークのトレーニングにおいて,バックプロパゲーションに比べて2倍以上のスピードアップと高いテスト精度を得る。
論文 参考訳(メタデータ) (2024-05-03T17:21:13Z) - Efficient Heterogeneous Graph Learning via Random Projection [58.4138636866903]
不均一グラフニューラルネットワーク(HGNN)は、異種グラフを深層学習するための強力なツールである。
最近のプリ計算ベースのHGNNは、一時間メッセージパッシングを使用して不均一グラフを正規形テンソルに変換する。
我々はRandom Projection Heterogeneous Graph Neural Network (RpHGNN) というハイブリッド計算前HGNNを提案する。
論文 参考訳(メタデータ) (2023-10-23T01:25:44Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - Accelerating DNN Training with Structured Data Gradient Pruning [0.5801044612920815]
ウェイトプルーニング(Weight pruning)は、ディープニューラルネットワーク(DNN)の推論をより効率的にする手法である。
Nvidia A100 GPUのような現代のアクセラレーターは、このタイプの構造化された空間を4要素あたり2つの非ゼロでサポートしている。
提案手法は,性能に大きな影響を与えることなく,全トレーニング時間を15~25%削減することができる。
論文 参考訳(メタデータ) (2022-02-01T21:41:51Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity [0.0]
本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
論文 参考訳(メタデータ) (2020-11-12T10:13:48Z) - Procrustes: a Dataflow and Accelerator for Sparse Deep Neural Network
Training [0.5219568203653523]
我々は,まず,第1の訓練を行わず,第2の訓練を行ない,第2の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら,第1の訓練を行ない,第1の訓練を行ない,第2の訓練を行ないながら、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行ない、第2の訓練を行なう。
最先端のDNNアクセラレーターをスパーストレーニングサポートなしで使用した同等の未使用モデルのトレーニングと比較すると、Procrustesは最大3.26$times$少ないエネルギーを消費し、様々なモデルにわたって最大4$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2020-09-23T07:39:55Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Gradient Centralization: A New Optimization Technique for Deep Neural
Networks [74.935141515523]
勾配集中(GC)は、勾配ベクトルをゼロ平均とする集中化によって、勾配を直接操作する。
GCは、制約された損失関数を持つ射影勾配降下法とみなすことができる。
GCは実装が非常に簡単で、1行のコードだけで既存のグラデーションベースのDNNに簡単に組み込める。
論文 参考訳(メタデータ) (2020-04-03T10:25:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。