論文の概要: ZeroQ: A Novel Zero Shot Quantization Framework
- arxiv url: http://arxiv.org/abs/2001.00281v1
- Date: Wed, 1 Jan 2020 23:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 09:28:04.850689
- Title: ZeroQ: A Novel Zero Shot Quantization Framework
- Title(参考訳): ZeroQ: 新たなゼロショット量子化フレームワーク
- Authors: Yaohui Cai, Zhewei Yao, Zhen Dong, Amir Gholami, Michael W. Mahoney,
Kurt Keutzer
- Abstract要約: 量子化は、ニューラルネットワークの推論時間とメモリフットプリントを削減するための有望なアプローチである。
既存のゼロショット量子化法では、異なるエポックを用いてこの問題に対処するが、性能は低下する。
本稿では,この問題に対処する新しいゼロショット量子化フレームワークであるZeroQを提案する。
- 参考スコア(独自算出の注目度): 83.63606876854168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is a promising approach for reducing the inference time and
memory footprint of neural networks. However, most existing quantization
methods require access to the original training dataset for retraining during
quantization. This is often not possible for applications with sensitive or
proprietary data, e.g., due to privacy and security concerns. Existing
zero-shot quantization methods use different heuristics to address this, but
they result in poor performance, especially when quantizing to ultra-low
precision. Here, we propose ZeroQ , a novel zero-shot quantization framework to
address this. ZeroQ enables mixed-precision quantization without any access to
the training or validation data. This is achieved by optimizing for a Distilled
Dataset, which is engineered to match the statistics of batch normalization
across different layers of the network. ZeroQ supports both uniform and
mixed-precision quantization. For the latter, we introduce a novel Pareto
frontier based method to automatically determine the mixed-precision bit
setting for all layers, with no manual search involved. We extensively test our
proposed method on a diverse set of models, including ResNet18/50/152,
MobileNetV2, ShuffleNet, SqueezeNext, and InceptionV3 on ImageNet, as well as
RetinaNet-ResNet50 on the Microsoft COCO dataset. In particular, we show that
ZeroQ can achieve 1.71\% higher accuracy on MobileNetV2, as compared to the
recently proposed DFQ method. Importantly, ZeroQ has a very low computational
overhead, and it can finish the entire quantization process in less than 30s
(0.5\% of one epoch training time of ResNet50 on ImageNet). We have
open-sourced the ZeroQ
framework\footnote{https://github.com/amirgholami/ZeroQ}.
- Abstract(参考訳): 量子化はニューラルネットワークの推論時間とメモリフットプリントを削減するための有望なアプローチである。
しかし、既存の量子化手法の多くは、量子化中に再トレーニングするために元のトレーニングデータセットにアクセスする必要がある。
これは、プライバシやセキュリティ上の懸念などにより、機密データやプロプライエタリデータを持つアプリケーションでは不可能であることが多い。
既存のゼロショット量子化法はこの問題に対処するために異なるヒューリスティックを用いるが、特に超低精度での量子化では性能が低下する。
本稿では、この問題に対処する新しいゼロショット量子化フレームワークZeroQを提案する。
zeroqは、トレーニングや検証データにアクセスせずに、混合精度量子化を可能にする。
これは、ネットワークの異なる層にわたるバッチ正規化の統計と一致するように設計されたDistilled Datasetを最適化することで達成される。
ZeroQは均一および混合精度量子化の両方をサポートする。
後者では,手動検索を伴わずに,すべての層に対する混合精度ビット設定を自動的に決定する新しいパレートフロンティア方式を提案する。
提案手法は,ResNet18/50/152,MobileNetV2,ShuffleNet,SqueezeNext,InceptionV3など,Microsoft COCOデータセット上のRetinaNet-ResNet50など,多種多様なモデルで広くテストされている。
特に,最近提案されたdfq法と比較して,zeroq は mobilenetv2 において 1.71\% 高い精度を達成できることを示した。
重要なことは、ZeroQは計算オーバーヘッドが非常に低く、30秒未満で量子化プロセス全体を終えることができる(ImageNet上のResNet50のエポックトレーニングタイムの0.55%)。
ZeroQ framework\footnote{https://github.com/amirgholami/ZeroQ} をオープンソース化しました。
関連論文リスト
- FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - Genie: Show Me the Data for Quantization [2.7286395031146062]
本稿では,高品質な量子化ネットワークを数時間で生成するゼロショット量子化のためのポストトレーニング量子化手法を提案する。
また,学習後の量子化アルゴリズムを提案し,量子化モデルの性能を向上させる。
論文 参考訳(メタデータ) (2022-12-09T11:18:40Z) - SQuant: On-the-Fly Data-Free Quantization via Diagonal Hessian
Approximation [22.782678826199206]
ディープニューラルネットワーク(DNN)の量子化は、モデルの圧縮と加速に有効であることが証明されている。
データフリー量子化(DFQ)は、プライバシに敏感で機密性の高いシナリオの下で、オリジナルのデータセットなしでは有望なアプローチである。
本稿では,サブ秒単位の量子化時間を持つDFQフレームワークSQuantを提案する。
論文 参考訳(メタデータ) (2022-02-14T01:57:33Z) - Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment [15.720551497037176]
本稿では,量子化の構成の探索を高速化するために,Quantune という自動チューニングを提案する。
我々は、Quantuneが6つのCNNモデルに対して0.07 0.65%の精度で、量子化の探索時間を約36.5倍削減することを示した。
論文 参考訳(メタデータ) (2022-02-10T14:05:02Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。