論文の概要: Bag of Tricks with Quantized Convolutional Neural Networks for image
classification
- arxiv url: http://arxiv.org/abs/2303.07080v1
- Date: Mon, 13 Mar 2023 13:05:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 15:11:03.104466
- Title: Bag of Tricks with Quantized Convolutional Neural Networks for image
classification
- Title(参考訳): 画像分類のための量子化畳み込みニューラルネットワークによるトリックの袋
- Authors: Jie Hu, Mengze Zeng, Enhua Wu
- Abstract要約: 深層ニューラルネットワークの学習後量子化のためのゴールドガイドラインを提案する。
提案手法の有効性を,ImageNetデータセット上でResNet50とMobileNetV2の2つの人気モデルを用いて評価した。
その結果,30%の空間幅を持つ量子化されたMobileNetV2が,等価な完全精度モデルの性能を実際に上回っていることがわかった。
- 参考スコア(独自算出の注目度): 9.240992450548132
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks have been proven effective in a wide range of tasks.
However, their high computational and memory costs make them impractical to
deploy on resource-constrained devices. To address this issue, quantization
schemes have been proposed to reduce the memory footprint and improve inference
speed. While numerous quantization methods have been proposed, they lack
systematic analysis for their effectiveness. To bridge this gap, we collect and
improve existing quantization methods and propose a gold guideline for
post-training quantization. We evaluate the effectiveness of our proposed
method with two popular models, ResNet50 and MobileNetV2, on the ImageNet
dataset. By following our guidelines, no accuracy degradation occurs even after
directly quantizing the model to 8-bits without additional training. A
quantization-aware training based on the guidelines can further improve the
accuracy in lower-bits quantization. Moreover, we have integrated a multi-stage
fine-tuning strategy that works harmoniously with existing pruning techniques
to reduce costs even further. Remarkably, our results reveal that a quantized
MobileNetV2 with 30\% sparsity actually surpasses the performance of the
equivalent full-precision model, underscoring the effectiveness and resilience
of our proposed scheme.
- Abstract(参考訳): ディープニューラルネットワークは幅広いタスクで有効であることが証明されている。
しかし、計算コストやメモリコストが高いため、リソースに制約のあるデバイスにデプロイするのは現実的ではない。
この問題を解決するため、メモリフットプリントの削減と推論速度の向上のために量子化スキームが提案されている。
多くの量子化手法が提案されているが、その有効性に関する体系的な分析が欠如している。
このギャップを埋めるために,既存の量子化手法を収集・改良し,トレーニング後の量子化のためのゴールドガイドラインを提案する。
提案手法の有効性を,ImageNetデータセット上でResNet50とMobileNetV2の2つの人気モデルを用いて評価した。
ガイドラインに従うことで,モデルを直接8ビットに定量化しても,追加のトレーニングを行わずに精度の劣化は発生しない。
このガイドラインに基づく量子化アウェアトレーニングは、低ビット量子化の精度をさらに向上させることができる。
さらに,既存の刈り取り技術と調和して動作する多段階微調整戦略を統合し,コストをさらに削減した。
その結果,30 % の間隔を持つ量子化 MobileNetV2 が等価な完全精度モデルの性能を実際に上回り,提案方式の有効性とレジリエンスを実証した。
関連論文リスト
- On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - Standard Deviation-Based Quantization for Deep Neural Networks [17.495852096822894]
深層ニューラルネットワークの量子化は、推論コストを低減するための有望なアプローチである。
ネットワークの重みと活性化分布の知識を用いて量子化間隔(離散値)を学習する新しいフレームワークを提案する。
提案手法は,ネットワークのパラメータを同時に推定し,量子化過程におけるプルーニング比を柔軟に調整する。
論文 参考訳(メタデータ) (2022-02-24T23:33:47Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - In-Hindsight Quantization Range Estimation for Quantized Training [5.65658124285176]
従来の反復で推定した量子化範囲を用いて,現在を数値化する動的量子化手法であるin-hindsight range推定法を提案する。
今回のアプローチでは,ニューラルネットワークアクセラレータによる最小限のハードウェアサポートのみを必要としながら,勾配とアクティベーションの高速静的量子化を可能にする。
量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。
論文 参考訳(メタデータ) (2021-05-10T10:25:28Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。