論文の概要: Pruning and Quantization for Deep Neural Network Acceleration: A Survey
- arxiv url: http://arxiv.org/abs/2101.09671v2
- Date: Thu, 11 Mar 2021 03:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 09:18:35.326089
- Title: Pruning and Quantization for Deep Neural Network Acceleration: A Survey
- Title(参考訳): ディープニューラルネットワーク加速のためのプルーニングと量子化:サーベイ
- Authors: Tailin Liang, John Glossner, Lei Wang, Shaobo Shi
- Abstract要約: ディープニューラルネットワークは、コンピュータビジョンの分野で異常な能力を示す多くのアプリケーションに応用されている。
複雑なネットワークアーキテクチャは効率的なリアルタイムデプロイメントに挑戦し、計算資源とエネルギーコストを必要とする。
本稿では,pruning と quantization の2種類のネットワーク圧縮に関する調査を行う。
- 参考スコア(独自算出の注目度): 2.805723049889524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have been applied in many applications exhibiting
extraordinary abilities in the field of computer vision. However, complex
network architectures challenge efficient real-time deployment and require
significant computation resources and energy costs. These challenges can be
overcome through optimizations such as network compression. Network compression
can often be realized with little loss of accuracy. In some cases accuracy may
even improve. This paper provides a survey on two types of network compression:
pruning and quantization. Pruning can be categorized as static if it is
performed offline or dynamic if it is performed at run-time. We compare pruning
techniques and describe criteria used to remove redundant computations. We
discuss trade-offs in element-wise, channel-wise, shape-wise, filter-wise,
layer-wise and even network-wise pruning. Quantization reduces computations by
reducing the precision of the datatype. Weights, biases, and activations may be
quantized typically to 8-bit integers although lower bit width implementations
are also discussed including binary neural networks. Both pruning and
quantization can be used independently or combined. We compare current
techniques, analyze their strengths and weaknesses, present compressed network
accuracy results on a number of frameworks, and provide practical guidance for
compressing networks.
- Abstract(参考訳): ディープニューラルネットワークは、コンピュータビジョンの分野で異常な能力を示す多くのアプリケーションに応用されている。
しかし、複雑なネットワークアーキテクチャは効率的なリアルタイムデプロイメントに挑戦し、計算資源とエネルギーコストがかなり必要である。
これらの課題はネットワーク圧縮などの最適化によって克服できる。
ネットワーク圧縮は精度を損なうことなく実現されることが多い。
精度が向上する場合もあります。
本稿では,pruning と quantization の2種類のネットワーク圧縮に関する調査を行う。
プルーニングは、オフラインまたは動的に実行された場合、実行時に実行された場合、静的に分類できる。
我々は,冗長計算の除去に使用されるプルーニング手法と基準を記述する。
本稿では,要素的,チャネル的,形状的,フィルタ的,層的,ネットワーク的といったトレードオフについて論じる。
量子化はデータ型の精度を下げることで計算を減らす。
重み、バイアス、アクティベーションは通常8ビット整数に量子化されるが、低ビット幅の実装もバイナリニューラルネットワークを含む議論されている。
プルーニングと量子化は独立に、あるいは組み合わせて使うことができる。
現在の技術を比較し、強みと弱みを分析し、多くのフレームワークで圧縮ネットワークの精度を示すとともに、ネットワークの圧縮に関する実践的なガイダンスを提供する。
関連論文リスト
- A Theoretical Understanding of Neural Network Compression from Sparse
Linear Approximation [37.525277809849776]
モデル圧縮の目標は、同等のパフォーマンスを維持しながら、大きなニューラルネットワークのサイズを減らすことだ。
圧縮性を特徴付けるためにスペーサ感度$ell_q$-normを使用し、ネットワーク内の重みの柔らかいスペーサと圧縮度の関係を提供する。
また,ネットワーク上で各ニューロンを切断する適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-11T20:10:35Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Image Complexity Guided Network Compression for Biomedical Image
Segmentation [5.926887379656135]
生体画像セグメント化のための画像複雑化誘導型ネットワーク圧縮手法を提案する。
データセットの複雑さを、圧縮によるターゲットネットワークの精度劣化にマップする。
このマッピングは、圧縮ネットワークを生成するための畳み込み層ワイド乗算因子を決定するために用いられる。
論文 参考訳(メタデータ) (2021-07-06T22:28:10Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Benchmarking Quantized Neural Networks on FPGAs with FINN [0.42439262432068253]
精度を下げるには、精度の低下を無視するコストがかかる。
本稿では、FPGA上にデプロイされたニューラルネットワークに適用した場合の混合精度の影響を評価することを目的とする。
論文 参考訳(メタデータ) (2021-02-02T06:42:07Z) - ESPN: Extremely Sparse Pruned Networks [50.436905934791035]
簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現することができることを示す。
本アルゴリズムは,シングルショット・ネットワーク・プルーニング法とロッテ・ティケット方式のハイブリッド・アプローチを示す。
論文 参考訳(メタデータ) (2020-06-28T23:09:27Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。