論文の概要: Data-Free Quantization via Mixed-Precision Compensation without
Fine-Tuning
- arxiv url: http://arxiv.org/abs/2307.00498v1
- Date: Sun, 2 Jul 2023 07:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:46:02.892573
- Title: Data-Free Quantization via Mixed-Precision Compensation without
Fine-Tuning
- Title(参考訳): 微調整のない混合精度補償によるデータ自由量子化
- Authors: Jun Chen, Shipeng Bai, Tianxin Huang, Mengmeng Wang, Guanzhong Tian,
Yong Liu
- Abstract要約: 本研究では,データと微調整を伴わない超低精度量子化モデルの性能を回復するデータフリー混合精度補償法を提案する。
我々のDF-MPCは、データや微調整を伴わない最近の手法と比較して、超高精度量子化モデルの高精度化を実現している。
- 参考スコア(独自算出の注目度): 20.413801240717646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network quantization is a very promising solution in the field of
model compression, but its resulting accuracy highly depends on a
training/fine-tuning process and requires the original data. This not only
brings heavy computation and time costs but also is not conducive to privacy
and sensitive information protection. Therefore, a few recent works are
starting to focus on data-free quantization. However, data-free quantization
does not perform well while dealing with ultra-low precision quantization.
Although researchers utilize generative methods of synthetic data to address
this problem partially, data synthesis needs to take a lot of computation and
time. In this paper, we propose a data-free mixed-precision compensation
(DF-MPC) method to recover the performance of an ultra-low precision quantized
model without any data and fine-tuning process. By assuming the quantized error
caused by a low-precision quantized layer can be restored via the
reconstruction of a high-precision quantized layer, we mathematically formulate
the reconstruction loss between the pre-trained full-precision model and its
layer-wise mixed-precision quantized model. Based on our formulation, we
theoretically deduce the closed-form solution by minimizing the reconstruction
loss of the feature maps. Since DF-MPC does not require any original/synthetic
data, it is a more efficient method to approximate the full-precision model.
Experimentally, our DF-MPC is able to achieve higher accuracy for an ultra-low
precision quantized model compared to the recent methods without any data and
fine-tuning process.
- Abstract(参考訳): ニューラルネットワーク量子化はモデル圧縮の分野で非常に有望な解であるが、その結果の精度はトレーニング/ファインチューニングプロセスに大きく依存し、元のデータを必要とする。
これは計算量と時間コストをもたらすだけでなく、プライバシや機密情報保護にも影響しない。
そのため、最近の研究はデータフリーな量子化に焦点を合わせ始めている。
しかし、超低精度量子化を扱う場合、データフリー量子化はうまく機能しない。
研究者はこの問題に部分的に対処するために合成データの生成手法を使用しているが、データ合成には多くの計算と時間を要する。
本稿では,データや微調整をすることなく,超低精度量子化モデルの性能を回復するデータフリー混合精度補償(df-mpc)法を提案する。
高精度量子化層の再構築により低精度量子化層に起因する量子化誤差を回復できると仮定し、事前訓練された全精度モデルと層別混合量子化モデルとの再構成損失を数学的に定式化する。
本定式化に基づいて,特徴写像の再構成損失を最小限に抑え,閉形式解を理論的に導出する。
DF-MPCはオリジナル/合成データを必要としないため、完全精度モデルを近似するより効率的な方法である。
実験により, df-mpcはデータや微調整処理をすることなく, 最近の手法と比較して, 超低精度量子化モデルにおいて高い精度を実現することができた。
関連論文リスト
- Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Mixed-Precision Inference Quantization: Radically Towards Faster
inference speed, Lower Storage requirement, and Lower Loss [4.877532217193618]
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。
本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。
特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
論文 参考訳(メタデータ) (2022-07-20T10:55:34Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Diverse Sample Generation: Pushing the Limit of Data-free Quantization [85.95032037447454]
本稿では,データ不要なポストトレーニング量子化と量子化学習のための汎用的な2次サンプル生成手法を提案する。
大規模な画像分類タスクでは、DSGは既存のデータ自由量子化手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-09-01T07:06:44Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文 参考訳(メタデータ) (2020-05-18T07:38:44Z) - Generative Low-bitwidth Data Free Quantization [44.613912463011545]
本稿ではGDFQ(Generative Low-bitdth Data Free Quantization)を提案する。
生成したデータの助けを借りて、事前学習されたモデルから知識を学習することでモデルを定量化することができる。
提案手法は,既存のデータ自由量子化法よりも高精度な4ビット量子化を実現する。
論文 参考訳(メタデータ) (2020-03-07T16:38:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。