論文の概要: Automatic Pruning for Quantized Neural Networks
- arxiv url: http://arxiv.org/abs/2002.00523v1
- Date: Mon, 3 Feb 2020 01:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:56:03.099381
- Title: Automatic Pruning for Quantized Neural Networks
- Title(参考訳): 量子化ニューラルネットワークの自動プルーニング
- Authors: Luis Guerra, Bohan Zhuang, Ian Reid, Tom Drummond
- Abstract要約: 冗長な低精度フィルタを選択するための効率的なプルーニング手法を提案する。
我々は CIFAR-10 と ImageNet について,様々なアーキテクチャと精度で広範な実験を行った。
ImageNet上のResNet-18では、二元化ニューラルネットワーク量子化によるモデルサイズの26.12%を経験する。
- 参考スコア(独自算出の注目度): 35.2752928147013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network quantization and pruning are two techniques commonly used to
reduce the computational complexity and memory footprint of these models for
deployment. However, most existing pruning strategies operate on full-precision
and cannot be directly applied to discrete parameter distributions after
quantization. In contrast, we study a combination of these two techniques to
achieve further network compression. In particular, we propose an effective
pruning strategy for selecting redundant low-precision filters. Furthermore, we
leverage Bayesian optimization to efficiently determine the pruning ratio for
each layer. We conduct extensive experiments on CIFAR-10 and ImageNet with
various architectures and precisions. In particular, for ResNet-18 on ImageNet,
we prune 26.12% of the model size with Binarized Neural Network quantization,
achieving a top-1 classification accuracy of 47.32% in a model of 2.47 MB and
59.30% with a 2-bit DoReFa-Net in 4.36 MB.
- Abstract(参考訳): ニューラルネットワークの量子化とプルーニングは、これらのモデルの計算複雑性とメモリフットプリントを減らすために一般的に使用される2つのテクニックである。
しかし、既存のプルーニング戦略の多くは全精度で動作し、量子化後の離散パラメータ分布に直接適用することはできない。
対照的に,これら2つの手法の組み合わせにより,さらなるネットワーク圧縮を実現する。
特に,冗長な低精度フィルタを選択するための効果的なプルーニング戦略を提案する。
さらに,ベイズ最適化を利用して各層の刈り取り比を効率的に決定する。
我々は CIFAR-10 と ImageNet で様々なアーキテクチャと精度で広範な実験を行った。
特に、ImageNet上のResNet-18では、バイナリニューラルネットワーク量子化によるモデルサイズの26.12%を経験し、2.47MB、2.36MBの2ビットDoReFa-Netで、トップ1の分類精度は47.32%に達した。
関連論文リスト
- Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - Resource Efficient Neural Networks Using Hessian Based Pruning [7.042897867094235]
我々はFP32の代わりにFP16精度を用いてヘッセントレースを推定することで既存のアプローチを修正した。
我々の修正されたアプローチは、モデルアーキテクチャとGPUデバイスの異なる組み合わせの実験において、17%から最大44%のスピードアップを達成することができる。
また, FP16 と FP32 Hessian のトレース計算によるプルーニングの結果について述べる。
論文 参考訳(メタデータ) (2023-06-12T11:09:16Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Differentiable Joint Pruning and Quantization for Hardware Efficiency [16.11027058505213]
DJPQは、変動情報ボトルネックに基づく構造化プルーニングと混合ビット精度量子化を1つの微分可能損失関数に組み込む。
DJPQは、複数のネットワークにおけるビット演算数(BOP)を大幅に削減し、元の浮動小数点モデルのトップ1の精度を維持していることを示す。
論文 参考訳(メタデータ) (2020-07-20T20:45:47Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。