論文の概要: Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via
Generalized Straight-Through Estimation
- arxiv url: http://arxiv.org/abs/2111.14826v1
- Date: Mon, 29 Nov 2021 18:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 14:55:49.379670
- Title: Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via
Generalized Straight-Through Estimation
- Title(参考訳): 非一様から一様への量子化:一般化されたストレートスルー推定による高精度量子化に向けて
- Authors: Zechun Liu and Kwang-Ting Cheng and Dong Huang and Eric Xing and
Zhiqiang Shen
- Abstract要約: 非一様量子化(英: Nonuniform-to-Uniform Quantization、N2UQ)は、ハードウェアフレンドリーで効率的な非一様法の強力な表現能力を維持できる方法である。
N2UQはImageNet上で最先端の非一様量子化法を0.71.8%上回る。
- 参考スコア(独自算出の注目度): 48.838691414561694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The nonuniform quantization strategy for compressing neural networks usually
achieves better performance than its counterpart, i.e., uniform strategy, due
to its superior representational capacity. However, many nonuniform
quantization methods overlook the complicated projection process in
implementing the nonuniformly quantized weights/activations, which incurs
non-negligible time and space overhead in hardware deployment. In this study,
we propose Nonuniform-to-Uniform Quantization (N2UQ), a method that can
maintain the strong representation ability of nonuniform methods while being
hardware-friendly and efficient as the uniform quantization for model
inference. We achieve this through learning the flexible in-equidistant input
thresholds to better fit the underlying distribution while quantizing these
real-valued inputs into equidistant output levels. To train the quantized
network with learnable input thresholds, we introduce a generalized
straight-through estimator (G-STE) for intractable backward derivative
calculation w.r.t. threshold parameters. Additionally, we consider entropy
preserving regularization to further reduce information loss in weight
quantization. Even under this adverse constraint of imposing uniformly
quantized weights and activations, our N2UQ outperforms state-of-the-art
nonuniform quantization methods by 0.7~1.8% on ImageNet, demonstrating the
contribution of N2UQ design. Code will be made publicly available.
- Abstract(参考訳): ニューラルネットワークを圧縮する非一様量子化戦略は、通常、その表現能力の優れたため、その一様戦略よりも優れた性能を達成する。
しかし、多くの非一様量子化法は、ハードウェア展開において非一様量子化ウェイト/アクティベーションを実装する際に複雑なプロジェクションプロセスを見落としている。
本研究では,モデル推論のための一様量子化としてハードウェアフレンドリーかつ効率的でありながら,非一様メソッドの強い表現能力を維持する手法であるn2uqを提案する。
これらの実数値入力を等価な出力レベルに定量化しながら、柔軟な等価な入力しきい値を学習し、基盤となる分布に適合させることで、これを達成する。
学習可能な入力しきい値を持つ量子化ネットワークを訓練するために、難解な後方微分型計算w.r.t.しきい値パラメータのための一般化ストレートスルー推定器(g-ste)を導入する。
さらに,重み量子化における情報損失をさらに低減するためにエントロピー保存正規化を検討する。
我々のN2UQは、均一に量子化された重みとアクティベーションを課すこの有害な制約の下でも、ImageNet上で最先端の非一様量子化法を0.7〜1.8%上回り、N2UQ設計の貢献を示す。
コードは公開される予定だ。
関連論文リスト
- NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - Designing strong baselines for ternary neural network quantization
through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-30T07:35:07Z) - Attention Round for Post-Training Quantization [0.9558392439655015]
本稿では,アテンションラウンドと呼ばれる新しい定量化手法を提案する。
異なる量子化値にマッピングされる確率は、量子化値とwの間の距離と負に相関し、ガウス函数と崩壊する。
ResNet18 と MobileNetV2 では,本論文で提案するポストトレーニング量子化は 1,024 のトレーニングデータと 10 分しか必要としない。
論文 参考訳(メタデータ) (2022-07-07T05:04:21Z) - Improved Quantum Algorithms for Fidelity Estimation [77.34726150561087]
証明可能な性能保証を伴う忠実度推定のための新しい,効率的な量子アルゴリズムを開発した。
我々のアルゴリズムは量子特異値変換のような高度な量子線型代数技術を用いる。
任意の非自明な定数加算精度に対する忠実度推定は一般に困難であることを示す。
論文 参考訳(メタデータ) (2022-03-30T02:02:16Z) - Power-of-Two Quantization for Low Bitwidth and Hardware Compliant Neural
Networks [1.398698203665363]
本稿では,低ビット精度を利用する非線形量子化手法について検討する。
我々は,低ビット幅のPower-of-Two(PoT)ネットワークのトレーニングを可能にするQATアルゴリズムを開発した。
同時に、PoT量子化はニューラルネットワークの計算複雑性を大幅に減らす。
論文 参考訳(メタデータ) (2022-03-09T19:57:14Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。