論文の概要: Towards Accurate Post-training Quantization for Reparameterized Models
- arxiv url: http://arxiv.org/abs/2402.16121v1
- Date: Sun, 25 Feb 2024 15:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 15:10:43.528040
- Title: Towards Accurate Post-training Quantization for Reparameterized Models
- Title(参考訳): 再パラメータ化モデルにおけるトレーニング後の正確な量子化に向けて
- Authors: Luoming Zhang, Yefei He, Wen Fei, Zhenyu Lou, Weijia Wu, YangWei Ying,
and Hong Zhou
- Abstract要約: 現在のポストトレーニング量子化法(PTQ)は、しばしばかなりの精度の劣化を引き起こす。
これは主にチャネル特異的およびサンプル特異的な外れ値によって引き起こされる。
本稿では、量子化された再パラメータ化モデルの精度を維持する新しいフレームワークであるRepAPQを提案する。
- 参考スコア(独自算出の注目度): 6.158896686945439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model reparameterization is a widely accepted technique for improving
inference speed without compromising performance. However, current
Post-training Quantization (PTQ) methods often lead to significant accuracy
degradation when applied to reparameterized models. This is primarily caused by
channel-specific and sample-specific outliers, which appear only at specific
samples and channels and impact on the selection of quantization parameters. To
address this issue, we propose RepAPQ, a novel framework that preserves the
accuracy of quantized reparameterization models. Different from previous
frameworks using Mean Squared Error (MSE) as a measurement, we utilize Mean
Absolute Error (MAE) to mitigate the influence of outliers on quantization
parameters. Our framework comprises two main components: Quantization
Protecting Reparameterization and Across-block Calibration. For effective
calibration, Quantization Protecting Reparameterization combines multiple
branches into a single convolution with an affine layer. During training, the
affine layer accelerates convergence and amplifies the output of the
convolution to better accommodate samples with outliers. Additionally,
Across-block Calibration leverages the measurement of stage output as
supervision to address the gradient problem introduced by MAE and enhance the
interlayer correlation with quantization parameters. Comprehensive experiments
demonstrate the effectiveness of RepAPQ across various models and tasks. Our
framework outperforms previous methods by approximately 1\% for 8-bit PTQ and
2\% for 6-bit PTQ, showcasing its superior performance. The code is available
at \url{https://github.com/ilur98/DLMC-QUANT}.
- Abstract(参考訳): モデル再パラメータ化は、性能を損なうことなく推論速度を改善する手法として広く受け入れられている。
しかし、現在のPTQ(Post-training Quantization)法は、再パラメータ化モデルに適用した場合、大きな精度低下をもたらすことが多い。
これは主に特定のサンプルやチャネルにのみ出現し、量子化パラメータの選択に影響を及ぼすチャネル固有およびサンプル特異的な異常値によって引き起こされる。
この問題に対処するため,我々は,量子化再パラメータモデルの精度を保つ新しいフレームワークである repapq を提案する。
平均正方形誤差(MSE)を測定として用いた従来のフレームワークとは異なり、平均絶対誤差(MAE)を用いて量子化パラメータに対する外れ値の影響を緩和する。
我々のフレームワークは、量子化保護リパラメータ化とAcross-block Calibrationの2つの主要コンポーネントから構成されている。
効果的な校正のために、量子化保護パラメータ化は複数の分岐をアフィン層と単一の畳み込みに結合する。
トレーニング中、アフィン層は収束を加速し、コンボリューションの出力を増幅し、外れ値のサンプルをよりよく適合させる。
さらに、Across-block Calibrationはステージ出力の測定を監視として利用し、MAEが導入した勾配問題に対処し、量子化パラメータとの層間相関を強化する。
総合的な実験は、RepAPQが様々なモデルやタスクで有効であることを示す。
提案手法は,8ビットのPTQで約1\%,6ビットのPTQで約2\%向上し,優れた性能を示した。
コードは \url{https://github.com/ilur98/dlmc-quant} で入手できる。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Augmenting Hessians with Inter-Layer Dependencies for Mixed-Precision
Post-Training Quantization [7.392278887917975]
本稿では,ネットワーク上のテンソルに異なる数値精度を割り当てる混合精度ポストトレーニング量子化手法を提案する。
実験では,16ビットベースラインの25.48%$,21.69%$,33.28%$に対して,レイテンシの低減を実証した。
論文 参考訳(メタデータ) (2023-06-08T02:18:58Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - PD-Quant: Post-Training Quantization based on Prediction Difference
Metric [43.81334288840746]
ポストトレーニング量子化(PTQ)は、ニューラルネットワーク圧縮技術で、完全精度のモデルを低精度のデータ型を使用した量子化モデルに変換する。
適切な量子化パラメータを決定する方法が、現在直面している主要な問題である。
PD-Quantは、グローバル情報を考慮してこの制限に対処する手法である。
論文 参考訳(メタデータ) (2022-12-14T05:48:58Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。