論文の概要: VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization
- arxiv url: http://arxiv.org/abs/2005.08501v2
- Date: Wed, 10 Jun 2020 07:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:48:10.395948
- Title: VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization
- Title(参考訳): VecQ: ベクトル化重み量子化による最小損失DNNモデル圧縮
- Authors: Cheng Gong, Yao Chen, Ye Lu, Tao Li, Cong Hao, Deming Chen
- Abstract要約: 我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
- 参考スコア(独自算出の注目度): 19.66522714831141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization has been proven to be an effective method for reducing the
computing and/or storage cost of DNNs. However, the trade-off between the
quantization bitwidth and final accuracy is complex and non-convex, which makes
it difficult to be optimized directly. Minimizing direct quantization loss
(DQL) of the coefficient data is an effective local optimization method, but
previous works often neglect the accurate control of the DQL, resulting in a
higher loss of the final DNN model accuracy. In this paper, we propose a novel
metric called Vector Loss. Based on this new metric, we develop a new
quantization solution called VecQ, which can guarantee minimal direct
quantization loss and better model accuracy. In addition, in order to speed up
the proposed quantization process during model training, we accelerate the
quantization process with a parameterized probability estimation method and
template-based derivation calculation. We evaluate our proposed algorithm on
MNIST, CIFAR, ImageNet, IMDB movie review and THUCNews text data sets with
numerical DNN models. The results demonstrate that our proposed quantization
solution is more accurate and effective than the state-of-the-art approaches
yet with more flexible bitwidth support. Moreover, the evaluation of our
quantized models on Saliency Object Detection (SOD) tasks maintains comparable
feature extraction quality with up to 16$\times$ weight size reduction.
- Abstract(参考訳): 量子化はDNNの計算および/またはストレージコストを削減する効果的な方法であることが証明されている。
しかし、量子化ビット幅と最終的な精度のトレードオフは複雑で非凸であり、直接最適化することは困難である。
係数データの直接量子化損失(DQL)を最小化することは効果的な局所最適化法であるが、以前の研究ではDQLの正確な制御を無視することが多く、最終的なDNNモデルの精度が低下する。
本稿ではベクトル損失と呼ばれる新しい計量を提案する。
この新たな指標に基づいて、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
さらに, モデル学習中に提案する量子化プロセスを高速化するために, パラメータ化確率推定法とテンプレートに基づく導出計算を用いて量子化プロセスを高速化する。
提案アルゴリズムは,MNIST, CIFAR, ImageNet, IMDB 映画レビュー, THUCNews テキストデータセットを数値DNNモデルで評価する。
その結果,提案した量子化解は最先端の手法よりも正確かつ効果的であり,より柔軟なビット幅支援が可能であることが示された。
さらに、Saliency Object Detection (SOD)タスクにおける量子化モデルの評価では、最大16$\times$weight size reductionという特徴抽出品質を維持している。
関連論文リスト
- MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。