論文の概要: Performance Aware Convolutional Neural Network Channel Pruning for
Embedded GPUs
- arxiv url: http://arxiv.org/abs/2002.08697v1
- Date: Thu, 20 Feb 2020 12:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:50:35.570904
- Title: Performance Aware Convolutional Neural Network Channel Pruning for
Embedded GPUs
- Title(参考訳): 組込みGPUのための畳み込みニューラルネットワークチャネルプルーニングの性能評価
- Authors: Valentin Radu, Kuba Kaszyk, Yuan Wen, Jack Turner, Jose Cano, Elliot
J. Crowley, Bjorn Franke, Amos Storkey, Michael O'Boyle
- Abstract要約: コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ることで,性能を損なう場合がある。
また,cuDNNで3倍,Arm Compute LibraryとTVMで10倍以上の性能向上を実現した。
- 参考スコア(独自算出の注目度): 6.035819238203187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks (CNN) are becoming a common presence in many
applications and services, due to their superior recognition accuracy. They are
increasingly being used on mobile devices, many times just by porting large
models designed for server space, although several model compression techniques
have been considered. One model compression technique intended to reduce
computations is channel pruning. Mobile and embedded systems now have GPUs
which are ideal for the parallel computations of neural networks and for their
lower energy cost per operation. Specialized libraries perform these neural
network computations through highly optimized routines. As we find in our
experiments, these libraries are optimized for the most common network shapes,
making uninstructed channel pruning inefficient. We evaluate higher level
libraries, which analyze the input characteristics of a convolutional layer,
based on which they produce optimized OpenCL (Arm Compute Library and TVM) and
CUDA (cuDNN) code. However, in reality, these characteristics and subsequent
choices intended for optimization can have the opposite effect. We show that a
reduction in the number of convolutional channels, pruning 12% of the initial
size, is in some cases detrimental to performance, leading to 2x slowdown. On
the other hand, we also find examples where performance-aware pruning achieves
the intended results, with performance speedups of 3x with cuDNN and above 10x
with Arm Compute Library and TVM. Our findings expose the need for
hardware-instructed neural network pruning.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、認識精度が優れているため、多くのアプリケーションやサービスで一般的な存在になりつつある。
多数のモデル圧縮技術が検討されているが、サーバ空間用に設計された大規模モデルを移植することで、モバイルデバイスでの利用がますます増えている。
計算量を減らすためのモデル圧縮技術の一つがチャネルプルーニングである。
モバイルおよび組み込みシステムは、ニューラルネットワークの並列計算と、演算毎のエネルギーコストの低減に理想的なGPUを持つようになった。
特殊ライブラリは、高度に最適化されたルーチンを通してこれらのニューラルネットワーク計算を実行する。
実験でわかったように、これらのライブラリは最も一般的なネットワーク形状に最適化されており、無指示のチャネルプラニングは非効率です。
本研究では,畳み込み層の入力特性を解析し,最適化したopencl (arm compute library and tvm) とcuda (cudnn) コードを生成する高レベルライブラリを評価する。
しかし、実際には、これらの特性とその後の最適化を意図した選択は反対の効果を持つ。
コンボリューションチャネルの数を減少させ,初期サイズの12%を刈り取ると,性能が低下し,結果として2倍の低下が生じた。
一方,cuDNNでは3倍,Arm Compute LibraryやTVMでは10倍以上の性能向上を実現している。
この結果から,ハードウェアによるニューラルネットワークプルーニングの必要性が明らかになった。
関連論文リスト
- Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - Resource Constrained Model Compression via Minimax Optimization for
Spiking Neural Networks [11.19282454437627]
スパイキングニューラルネットワーク(SNN)は、イベント駆動型および高エネルギー効率ネットワークの特徴を持つ。
これらのネットワークをリソース制限されたエッジデバイスに直接展開することは困難である。
本稿では,このスパース学習問題に対するエンドツーエンドの Minimax 最適化手法を提案する。
論文 参考訳(メタデータ) (2023-08-09T02:50:15Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Learning N:M Fine-grained Structured Sparse Neural Networks From Scratch [75.69506249886622]
ディープニューラルネットワーク(DNN)におけるスパーシティは、資源制約された環境でモデルを圧縮し、加速するために広く研究されている。
本稿では,N:M細粒構造スパースネットワークのスクラッチからトレーニングを初めて行う。
論文 参考訳(メタデータ) (2021-02-08T05:55:47Z) - Toward Accurate Platform-Aware Performance Modeling for Deep Neural
Networks [0.17499351967216337]
機械学習に基づくPerfNetV2は、さまざまなGPUアクセラレータ上でのニューラルネットワークのパフォーマンスをモデル化するための、これまでの作業の精度を向上させる。
アプリケーションを利用すると、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測することができる。
我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。
論文 参考訳(メタデータ) (2020-12-01T01:42:23Z) - When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity [0.0]
本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
論文 参考訳(メタデータ) (2020-11-12T10:13:48Z) - Optimization of XNOR Convolution for Binary Convolutional Neural
Networks on GPU [2.578242050187029]
本稿では,GPU上でのバイナリ畳み込みネットワーク推論の実装を提案する。
実験の結果、GPUを使用することで、カーネルサイズが3ドル3セントの最大42.61ドルまでスピードアップできることがわかった。
論文 参考訳(メタデータ) (2020-07-28T13:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。