論文の概要: AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2007.03903v1
- Date: Wed, 8 Jul 2020 05:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 13:33:26.726606
- Title: AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks
- Title(参考訳): AUSN: ニューラルネットワークの非一様分布を適応的に重畳した近似量子化
- Authors: Liu Fangxin, Zhao Wenbo, Wang Yanzhi, Dai Changzhi, Jiang Li
- Abstract要約: 既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
- 参考スコア(独自算出の注目度): 0.7378164273177589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization is essential to simplify DNN inference in edge applications.
Existing uniform and non-uniform quantization methods, however, exhibit an
inherent conflict between the representing range and representing resolution,
and thereby result in either underutilized bit-width or significant accuracy
drop. Moreover, these methods encounter three drawbacks: i) the absence of a
quantitative metric for in-depth analysis of the source of the quantization
errors; ii) the limited focus on the image classification tasks based on CNNs;
iii) the unawareness of the real hardware and energy consumption reduced by
lowering the bit-width. In this paper, we first define two quantitative
metrics, i.e., the Clipping Error and rounding error, to analyze the
quantization error distribution. We observe that the boundary- and rounding-
errors vary significantly across layers, models and tasks. Consequently, we
propose a novel quantization method to quantize the weight and activation. The
key idea is to Approximate the Uniform quantization by Adaptively Superposing
multiple Non-uniform quantized values, namely AUSN. AUSN is consist of a
decoder-free coding scheme that efficiently exploits the bit-width to its
extreme, a superposition quantization algorithm that can adapt the coding
scheme to different DNN layers, models and tasks without extra hardware design
effort, and a rounding scheme that can eliminate the well-known bit-width
overflow and re-quantization issues. Theoretical analysis~(see Appendix A) and
accuracy evaluation on various DNN models of different tasks show the
effectiveness and generalization of AUSN. The synthesis~(see Appendix B)
results on FPGA show $2\times$ reduction of the energy consumption, and
$2\times$ to $4\times$ reduction of the hardware resource.
- Abstract(参考訳): エッジアプリケーションのDNN推論を単純化するためには量子化が不可欠である。
しかし、既存の均一な量子化法と非一様量子化法は、表現範囲と解像度との固有の矛盾を示し、その結果、未使用ビット幅または重要な精度低下をもたらす。
さらに、これらの手法には3つの欠点がある。
一 量子化誤差の原因を詳細に分析するための量的指標がないこと。
二 画像分類タスクのCNNに基づく限定的な焦点
三 ビット幅を下げることにより、実際のハードウェア及びエネルギー消費の無意識を低下させる。
本稿では,まず,クリッピング誤差と丸め誤差の2つの定量的指標を定義し,量子化誤差分布を解析した。
境界と丸みを帯びたエラーは、層、モデル、タスクによって大きく異なる。
そこで本研究では,重みと活性化を定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることでユニフォーム量子化を近似することである。
AUSNは、ビット幅を極端まで効率的に活用するデコーダフリーコーディングスキームと、ハードウェア設計の余分な努力なしに異なるDNN層、モデル、タスクに符号化スキームを適応できる重ね合わせ量子化アルゴリズムと、よく知られたビット幅オーバーフローと再量子化の問題を排除するラウンドリングスキームから構成されている。
様々なタスクのDNNモデルの理論的解析と精度評価は、AUSNの有効性と一般化を示している。
FPGAの合成〜(Appendix B参照)の結果は、エネルギー消費の削減に2\times$、ハードウェアリソースの削減に2\times$4\times$である。
関連論文リスト
- Low-bit Quantization for Deep Graph Neural Networks with
Smoothness-aware Message Propagation [3.9177379733188715]
本稿では,資源制約のある環境において,これらの課題に対処するためのエンドツーエンドソリューションを提案する。
本稿では,学習中のメッセージパッシングからノード分類まで,GNNのすべての段階に対する量子化に基づくアプローチを提案する。
提案した量子化器は量子化範囲を学習し、低ビット量子化の下でも同等の精度でモデルサイズを削減する。
論文 参考訳(メタデータ) (2023-08-29T00:25:02Z) - QEBVerif: Quantization Error Bound Verification of Neural Networks [6.327780998441913]
量子化は、エッジデバイスにディープニューラルネットワーク(DNN)をデプロイするための有望なテクニックとして広く見なされている。
既存の検証方法は、個々のニューラルネットワーク(DNNまたはQNN)または部分量子化のための量子化エラーにフォーカスする。
本稿では、重みとアクティベーションテンソルの両方を量子化する量子化誤差境界検証手法QEBVerifを提案する。
論文 参考訳(メタデータ) (2022-12-06T06:34:38Z) - Symmetry Regularization and Saturating Nonlinearity for Robust
Quantization [5.1779694507922835]
量子化に対するネットワークの強固化に関する3つの知見を提示する。
対称性正則化(SymReg)と飽和非線形性(SatNL)という2つの新しい手法を提案する。
トレーニング中に提案した手法を適用することで、量子化に対する任意のニューラルネットワークの堅牢性を高めることができる。
論文 参考訳(メタデータ) (2022-07-31T02:12:28Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via
Generalized Straight-Through Estimation [48.838691414561694]
非一様量子化(英: Nonuniform-to-Uniform Quantization、N2UQ)は、ハードウェアフレンドリーで効率的な非一様法の強力な表現能力を維持できる方法である。
N2UQはImageNet上で最先端の非一様量子化法を0.71.8%上回る。
論文 参考訳(メタデータ) (2021-11-29T18:59:55Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。