論文の概要: EasyQuant: Post-training Quantization via Scale Optimization
- arxiv url: http://arxiv.org/abs/2006.16669v1
- Date: Tue, 30 Jun 2020 10:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 05:29:20.414218
- Title: EasyQuant: Post-training Quantization via Scale Optimization
- Title(参考訳): EasyQuant: スケール最適化によるポストトレーニング量子化
- Authors: Di Wu, Qi Tang, Yongle Zhao, Ming Zhang, Ying Fu and Debing Zhang
- Abstract要約: 8ビットの量子化は、様々なディープラーニングアプリケーションにおけるネットワーク推論の高速化に広く応用されている。
量子化法には、トレーニングベース量子化と後学習量子化の2種類がある。
- 参考スコア(独自算出の注目度): 15.443708111143412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The 8 bits quantization has been widely applied to accelerate network
inference in various deep learning applications. There are two kinds of
quantization methods, training-based quantization and post-training
quantization. Training-based approach suffers from a cumbersome training
process, while post-training quantization may lead to unacceptable accuracy
drop. In this paper, we present an efficient and simple post-training method
via scale optimization, named EasyQuant (EQ),that could obtain comparable
accuracy with the training-based method.Specifically, we first alternately
optimize scales of weights and activations for all layers target at
convolutional outputs to further obtain the high quantization precision. Then,
we lower down bit width to INT7 both for weights and activations, and adopt
INT16 intermediate storage and integer Winograd convolution implementation to
accelerate inference.Experimental results on various computer vision tasks show
that EQ outperforms the TensorRT method and can achieve near INT8 accuracy in 7
bits width post-training.
- Abstract(参考訳): 8ビットの量子化は、様々なディープラーニングアプリケーションにおけるネットワーク推論の高速化に広く応用されている。
量子化法には、トレーニングベース量子化と後学習量子化の2種類がある。
トレーニングベースのアプローチは面倒なトレーニングプロセスに悩まされる一方、トレーニング後の量子化は受け入れがたい精度低下につながる可能性がある。
本稿では,eq(easyquant)と呼ばれるスケール最適化による効率良く簡単なポストトレーニング手法を提案する。具体的には,まず,畳み込み出力において,すべての層を対象とする重みとアクティベーションのスケールを交互に最適化し,高い量子化精度を得る。
そして、重みとアクティベーションの両方においてビット幅をINT7に下げ、INT16中間ストレージと整数Winograd畳み込み実装を採用して推論を高速化する。
関連論文リスト
- On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Attention Round for Post-Training Quantization [0.9558392439655015]
本稿では,アテンションラウンドと呼ばれる新しい定量化手法を提案する。
異なる量子化値にマッピングされる確率は、量子化値とwの間の距離と負に相関し、ガウス函数と崩壊する。
ResNet18 と MobileNetV2 では,本論文で提案するポストトレーニング量子化は 1,024 のトレーニングデータと 10 分しか必要としない。
論文 参考訳(メタデータ) (2022-07-07T05:04:21Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Distribution Adaptive INT8 Quantization for Training CNNs [12.708068468737286]
本稿では,畳み込みニューラルネットワークのための新しいINT8量子化学習フレームワークを提案する。
具体的には, 層幅勾配がチャネル次元に沿って複数の分布を含むという観測に基づいて, 勾配の量子化にグラディエントベクトル化量子化を用いる。
次に、量子化誤差を最小化する際に、勾配の等級を考慮に入れ、マグニチュード対応のクリッピング戦略を導入する。
論文 参考訳(メタデータ) (2021-02-09T11:58:10Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Post-training Quantization with Multiple Points: Mixed Precision without
Mixed Precision [20.081543082708688]
低ビット数の複数ベクトルの線形結合を用いて全精度重みベクトルを近似する多点量子化法を提案する。
提案手法は,ImageNet分類における最先端の手法よりも優れており,PASCAL VOCオブジェクト検出のようなより困難なタスクに一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-02-20T22:37:45Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z) - Post-Training Piecewise Linear Quantization for Deep Neural Networks [13.717228230596167]
リソース制限されたデバイスへのディープニューラルネットワークのエネルギー効率向上において、量子化は重要な役割を果たす。
本稿では,長い尾を持つベル形状のテンソル値の正確な近似を実現するために,一方向線形量子化方式を提案する。
提案手法は,最先端のポストトレーニング量子化手法と比較して,画像分類,セマンティックセグメンテーション,オブジェクト検出においてわずかなオーバーヘッドで優れた性能を実現する。
論文 参考訳(メタデータ) (2020-01-31T23:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。