論文の概要: Compact representations of convolutional neural networks via weight
pruning and quantization
- arxiv url: http://arxiv.org/abs/2108.12704v1
- Date: Sat, 28 Aug 2021 20:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:32:14.291966
- Title: Compact representations of convolutional neural networks via weight
pruning and quantization
- Title(参考訳): 重みプラニングと量子化による畳み込みニューラルネットワークのコンパクト表現
- Authors: Giosu\`e Cataldo Marin\`o, Alessandro Petrini, Dario Malchiodi, Marco
Frasca
- Abstract要約: 本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
- 参考スコア(独自算出の注目度): 63.417651529192014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The state-of-the-art performance for several real-world problems is currently
reached by convolutional neural networks (CNN). Such learning models exploit
recent results in the field of deep learning, typically leading to highly
performing, yet very large neural networks with (at least) millions of
parameters. As a result, the deployment of such models is not possible when
only small amounts of RAM are available, or in general within resource-limited
platforms, and strategies to compress CNNs became thus of paramount importance.
In this paper we propose a novel lossless storage format for CNNs based on
source coding and leveraging both weight pruning and quantization. We
theoretically derive the space upper bounds for the proposed structures,
showing their relationship with both sparsity and quantization levels of the
weight matrices. Both compression rates and excution times have been tested
against reference methods for matrix compression, and an empirical evaluation
of state-of-the-art quantization schemes based on weight sharing is also
discussed, to assess their impact on the performance when applied to both
convolutional and fully connected layers. On four benchmarks for classification
and regression problems and comparing to the baseline pre-trained uncompressed
network, we achieved a reduction of space occupancy up to 0.6% on fully
connected layers and 5.44% on the whole network, while performing at least as
competitive as the baseline.
- Abstract(参考訳): いくつかの現実世界の問題に対する最先端のパフォーマンスは現在、畳み込みニューラルネットワーク(CNN)によって達成されている。
このような学習モデルは、ディープラーニングの分野における最近の結果を利用しており、通常は(少なくとも)数百万のパラメータを持つ高性能で、非常に大きなニューラルネットワークにつながる。
その結果、少量のramしか利用できない場合、あるいはリソース制限されたプラットフォーム内でのみ、そのようなモデルのデプロイは不可能となり、cnnを圧縮する戦略が最重要になった。
本稿では、ソース符号化と重み付けと量子化の両面を利用した新しいCNNのロスレスストレージフォーマットを提案する。
理論的には、提案した構造に対する空間上界を導出し、重み行列の空間性と量子化レベルとの関係を示す。
行列圧縮の基準法に対して圧縮速度と抽出時間の両方を試験し, 重み共有に基づく最先端量子化スキームの実証評価を行い, 畳み込み層と完全連結層の両方に適用した場合の性能への影響について検討した。
分類と回帰問題に対する4つのベンチマークと、ベースライン未圧縮ネットワークとの比較により、全接続層で最大0.6%、ネットワーク全体で最大5.44%の空間占有率を達成し、少なくともベースラインと同じくらいの競争力を発揮した。
関連論文リスト
- "Lossless" Compression of Deep Neural Networks: A High-dimensional
Neural Tangent Kernel Approach [49.744093838327615]
広帯域かつ完全接続型エンフディープニューラルネットに対する新しい圧縮手法を提案する。
提案手法の利点を支えるために, 合成データと実世界のデータの両方の実験を行った。
論文 参考訳(メタデータ) (2024-03-01T03:46:28Z) - WeightMom: Learning Sparse Networks using Iterative Momentum-based
pruning [0.0]
本稿では,前回の繰り返しの運動量に基づいて徐々に重みを刈り取る,重みに基づくプルーニング手法を提案する。
我々は,CIFAR-10やCIFAR-100といった画像分類データセットを用いて,AlexNet,VGG16,ResNet50などのネットワークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-08-11T07:13:59Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - ECQ$^{\text{x}}$: Explainability-Driven Quantization for Low-Bit and
Sparse DNNs [13.446502051609036]
我々はディープニューラルネットワーク(DNN)のための新しい量子化パラダイムを開発し、記述する。
本手法は,説明可能なAI(XAI)の概念と情報理論の概念を活用する。
最終的な目標は、最高の情報内容の量子化クラスタにおいて、最も関連性の高い重みを維持することである。
論文 参考訳(メタデータ) (2021-09-09T12:57:06Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Compression strategies and space-conscious representations for deep
neural networks [0.3670422696827526]
近年のディープラーニングの進歩により、いくつかの実世界のアプリケーションで最先端のパフォーマンスを備えた強力な畳み込みニューラルネットワーク(CNN)が利用可能になった。
CNNには数百万のパラメータがあり、リソース制限のあるプラットフォームではデプロイできない。
本稿では,重み付けと量子化によるCNNの損失圧縮の影響について検討する。
論文 参考訳(メタデータ) (2020-07-15T19:41:19Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - Mixed-Precision Quantized Neural Network with Progressively Decreasing
Bitwidth For Image Classification and Object Detection [21.48875255723581]
ビット幅が徐々に増大する混合精度量子化ニューラルネットワークを提案し,精度と圧縮のトレードオフを改善する。
典型的なネットワークアーキテクチャとベンチマークデータセットの実験は、提案手法がより良い結果または同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2019-12-29T14:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。