論文の概要: PD-Quant: Post-Training Quantization based on Prediction Difference
Metric
- arxiv url: http://arxiv.org/abs/2212.07048v1
- Date: Wed, 14 Dec 2022 05:48:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 17:35:47.867333
- Title: PD-Quant: Post-Training Quantization based on Prediction Difference
Metric
- Title(参考訳): PD-Quant:予測差分量に基づくポストトレーニング量子化
- Authors: Jiawei Liu, Lin Niu, Zhihang Yuan, Dawei Yang, Xinggang Wang, Wenyu
Liu
- Abstract要約: 後学習量子化(PTQ)は、事前学習されたモデルを低精度のデータ型を用いて量子化モデルに変換する。
適切な量子化パラメータ(例えば、スケーリング係数や重みの丸めなど)を決定する方法が、現在直面している主要な問題である。
PD-Quantは、量子化前後のネットワーク予測の違いの情報を用いて、量子化パラメータを決定する。
- 参考スコア(独自算出の注目度): 43.81334288840746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a neural network compression technique, post-training quantization (PTQ)
transforms a pre-trained model into a quantized model using a lower-precision
data type. However, the prediction accuracy will decrease because of the
quantization noise, especially in extremely low-bit settings. How to determine
the appropriate quantization parameters (e.g., scaling factors and rounding of
weights) is the main problem facing now. Many existing methods determine the
quantization parameters by minimizing the distance between features before and
after quantization. Using this distance as the metric to optimize the
quantization parameters only considers local information. We analyze the
problem of minimizing local metrics and indicate that it would not result in
optimal quantization parameters. Furthermore, the quantized model suffers from
overfitting due to the small number of calibration samples in PTQ. In this
paper, we propose PD-Quant to solve the problems. PD-Quant uses the information
of differences between network prediction before and after quantization to
determine the quantization parameters. To mitigate the overfitting problem,
PD-Quant adjusts the distribution of activations in PTQ. Experiments show that
PD-Quant leads to better quantization parameters and improves the prediction
accuracy of quantized models, especially in low-bit settings. For example,
PD-Quant pushes the accuracy of ResNet-18 up to 53.08% and RegNetX-600MF up to
40.92% in weight 2-bit activation 2-bit. The code will be released at
https://github.com/hustvl/PD-Quant.
- Abstract(参考訳): ニューラルネットワーク圧縮手法として、ptq(post-training quantization)は、事前学習されたモデルを低精度データ型を用いて量子化モデルに変換する。
しかし、特に極低ビット設定では、量子化ノイズのために予測精度が低下する。
適切な量子化パラメータ(例えば、スケーリング係数や重みの丸めなど)を決定する方法は、現在直面している主な問題である。
多くの既存手法は、量子化前後の特徴間の距離を最小化することで量子化パラメータを決定する。
この距離を使って量子化パラメータを最適化することは、ローカル情報のみを考慮する。
局所的なメトリクスを最小化する問題を分析し、最適な量子化パラメータが得られないことを示す。
さらに,ptqのキャリブレーションサンプル数が少ないため,量子化モデルでは過剰フィッティングに支障をきたす。
本稿では,その問題を解決するためにPD-Quantを提案する。
pd-quantは、量子化前後のネットワーク予測の差の情報を用いて量子化パラメータを決定する。
オーバーフィッティング問題を緩和するため、PD-QuantはPTQにおけるアクティベーションの分布を調整する。
実験により、PD-Quantは量子化パラメータが向上し、特に低ビット設定において量子化モデルの予測精度が向上することが示された。
例えば、pd-quantはresnet-18の精度を53.08%、regnetx-600mfを40.92%まで押し上げる。
コードはhttps://github.com/hustvl/pd-quantでリリースされる。
関連論文リスト
- Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust
Parameters of Unseen Limited Precision Neural Networks [80.29667394618625]
Graph Hypernetworks(GHN)は、さまざまな未知のCNNアーキテクチャのパラメータを驚くほど高い精度で予測することができる。
予備研究は、8ビットおよび4ビットの量子化CNNの量子化-ロバストパラメータの予測にGHNを使うことを検討した。
4ビットの量子化CNNのGHN予測パラメータの量子化精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-09-24T23:01:00Z) - Designing strong baselines for ternary neural network quantization
through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-30T07:35:07Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Improving Post-Training Quantization on Object Detection with Task
Loss-Guided Lp Metric [43.81334288840746]
PTQ(Post-Training Quantization)は、完全精度モデルを直接低ビット幅に変換する。
PTQは、オブジェクト検出などの複雑なタスクに適用した場合、深刻な精度低下を被る。
DetPTQは、最適な量子化パラメータを選択するためにODOLベースの適応Lpメトリックを使用する。
論文 参考訳(メタデータ) (2023-04-19T16:11:21Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。