論文の概要: PD-Quant: Post-Training Quantization based on Prediction Difference
Metric
- arxiv url: http://arxiv.org/abs/2212.07048v3
- Date: Mon, 27 Mar 2023 05:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:11:55.940155
- Title: PD-Quant: Post-Training Quantization based on Prediction Difference
Metric
- Title(参考訳): PD-Quant:予測差分量に基づくポストトレーニング量子化
- Authors: Jiawei Liu, Lin Niu, Zhihang Yuan, Dawei Yang, Xinggang Wang, Wenyu
Liu
- Abstract要約: ポストトレーニング量子化(PTQ)は、ニューラルネットワーク圧縮技術で、完全精度のモデルを低精度のデータ型を使用した量子化モデルに変換する。
適切な量子化パラメータを決定する方法が、現在直面している主要な問題である。
PD-Quantは、グローバル情報を考慮してこの制限に対処する手法である。
- 参考スコア(独自算出の注目度): 43.81334288840746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (PTQ) is a neural network compression technique
that converts a full-precision model into a quantized model using
lower-precision data types. Although it can help reduce the size and
computational cost of deep neural networks, it can also introduce quantization
noise and reduce prediction accuracy, especially in extremely low-bit settings.
How to determine the appropriate quantization parameters (e.g., scaling factors
and rounding of weights) is the main problem facing now. Existing methods
attempt to determine these parameters by minimize the distance between features
before and after quantization, but such an approach only considers local
information and may not result in the most optimal quantization parameters. We
analyze this issue and ropose PD-Quant, a method that addresses this limitation
by considering global information. It determines the quantization parameters by
using the information of differences between network prediction before and
after quantization. In addition, PD-Quant can alleviate the overfitting problem
in PTQ caused by the small number of calibration sets by adjusting the
distribution of activations. Experiments show that PD-Quant leads to better
quantization parameters and improves the prediction accuracy of quantized
models, especially in low-bit settings. For example, PD-Quant pushes the
accuracy of ResNet-18 up to 53.14% and RegNetX-600MF up to 40.67% in weight
2-bit activation 2-bit. The code is released at
https://github.com/hustvl/PD-Quant.
- Abstract(参考訳): ポストトレーニング量子化(PTQ)は、ニューラルネットワーク圧縮技術で、完全精度のモデルを低精度のデータ型を使用した量子化モデルに変換する。
ディープニューラルネットワークのサイズと計算コストを削減できるが、特に極低ビット設定では量子化ノイズを導入し、予測精度を下げることもできる。
適切な量子化パラメータ(例えば、スケーリング係数や重みの丸めなど)を決定する方法は、現在直面している主な問題である。
既存の手法では、これらのパラメータを量子化前後の特徴間の距離を最小化することで決定しようとするが、そのような手法は局所的な情報のみを考慮し、最も最適な量子化パラメータにはならない。
この問題を分析し,グローバル情報を考慮したpd-quant法を提案する。
量子化前後のネットワーク予測の差情報を用いて量子化パラメータを決定する。
さらに、PD-Quantは、アクティベーションの分布を調整することで、少数のキャリブレーションセットによるPTQのオーバーフィッティング問題を緩和することができる。
実験により、PD-Quantは量子化パラメータが向上し、特に低ビット設定において量子化モデルの予測精度が向上することが示された。
例えば、PD-QuantはResNet-18の精度を53.14%、RegNetX-600MFを40.67%の2ビットの2ビットに向上させる。
コードはhttps://github.com/hustvl/pd-quantでリリースされる。
関連論文リスト
- Towards Accurate Post-training Quantization for Reparameterized Models [6.158896686945439]
現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
論文 参考訳(メタデータ) (2024-02-25T15:42:12Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust
Parameters of Unseen Limited Precision Neural Networks [80.29667394618625]
Graph Hypernetworks(GHN)は、さまざまな未知のCNNアーキテクチャのパラメータを驚くほど高い精度で予測することができる。
予備研究は、8ビットおよび4ビットの量子化CNNの量子化-ロバストパラメータの予測にGHNを使うことを検討した。
4ビットの量子化CNNのGHN予測パラメータの量子化精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-09-24T23:01:00Z) - Designing strong baselines for ternary neural network quantization
through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-30T07:35:07Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Improving Post-Training Quantization on Object Detection with Task
Loss-Guided Lp Metric [43.81334288840746]
PTQ(Post-Training Quantization)は、完全精度モデルを直接低ビット幅に変換する。
PTQは、オブジェクト検出などの複雑なタスクに適用した場合、深刻な精度低下を被る。
DetPTQは、最適な量子化パラメータを選択するためにODOLベースの適応Lpメトリックを使用する。
論文 参考訳(メタデータ) (2023-04-19T16:11:21Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。