論文の概要: Improving Quantization-aware Training of Low-Precision Network via Block Replacement on Full-Precision Counterpart
- arxiv url: http://arxiv.org/abs/2412.15846v1
- Date: Fri, 20 Dec 2024 12:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:23:14.160819
- Title: Improving Quantization-aware Training of Low-Precision Network via Block Replacement on Full-Precision Counterpart
- Title(参考訳): ブロック置換による高精度ネットワークの量子化学習の改善
- Authors: Chengting Yu, Shu Yang, Fengzhao Zhang, Hanzhi Ma, Aili Wang, Er-Ping Li,
- Abstract要約: 量子化対応トレーニング(QAT)は、ネットワーク量子化の一般的なパラダイムである。
低精度モデルは限られた表現能力を示し、完全精度の計算を直接複製することはできない。
本稿では,低精度ネットワークのフォワード・バック・プロセスが,完全精度パートナーによってガイドされるようにすることで,懸念を緩和するための一般的なQATフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.5508907979229383
- License:
- Abstract: Quantization-aware training (QAT) is a common paradigm for network quantization, in which the training phase incorporates the simulation of the low-precision computation to optimize the quantization parameters in alignment with the task goals. However, direct training of low-precision networks generally faces two obstacles: 1. The low-precision model exhibits limited representation capabilities and cannot directly replicate full-precision calculations, which constitutes a deficiency compared to full-precision alternatives; 2. Non-ideal deviations during gradient propagation are a common consequence of employing pseudo-gradients as approximations in derived quantized functions. In this paper, we propose a general QAT framework for alleviating the aforementioned concerns by permitting the forward and backward processes of the low-precision network to be guided by the full-precision partner during training. In conjunction with the direct training of the quantization model, intermediate mixed-precision models are generated through the block-by-block replacement on the full-precision model and working simultaneously with the low-precision backbone, which enables the integration of quantized low-precision blocks into full-precision networks throughout the training phase. Consequently, each quantized block is capable of: 1. simulating full-precision representation during forward passes; 2. obtaining gradients with improved estimation during backward passes. We demonstrate that the proposed method achieves state-of-the-art results for 4-, 3-, and 2-bit quantization on ImageNet and CIFAR-10. The proposed framework provides a compatible extension for most QAT methods and only requires a concise wrapper for existing codes.
- Abstract(参考訳): QAT(Quantization-Aware Training)は、ネットワーク量子化の一般的なパラダイムであり、トレーニングフェーズでは、低精度計算のシミュレーションを取り入れ、タスク目標に沿った量子化パラメータを最適化する。
しかし、低精度ネットワークの直接訓練は、一般的に2つの障害に直面している。
1 低精度モデルは、限られた表現能力を示し、完全精度計算を直接複製することはできない。
2) 勾配伝播中の非イデアル偏差は、導出した量子化関数の近似として擬似次数を用いる一般的な結果である。
本稿では、トレーニング中の全精度パートナーによって導かれる低精度ネットワークの前後過程を許容し、上記の懸念を緩和するための一般的なQATフレームワークを提案する。
量子化モデルの直接的なトレーニングと合わせて、中間混合精度モデルが全精度モデルのブロック・バイ・ブロック置換を通じて生成され、同時に低精度のバックボーンと共に動作することにより、トレーニングフェーズを通して量子化された低精度ブロックを完全精度ネットワークに統合することができる。
その結果、各量子化ブロックは以下のことができる。
1. 前方通過時の完全精度表現のシミュレート
2. 後方通過時の推定精度を向上した勾配を得る。
提案手法は,ImageNet および CIFAR-10 上での4ビット,3ビット,2ビットの量子化に対して,最先端の結果が得られることを示す。
提案されたフレームワークは、ほとんどのQATメソッドに互換性のある拡張を提供しており、既存のコードには簡潔なラッパーが必要である。
関連論文リスト
- PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - QuantNet: Learning to Quantize by Learning within Fully Differentiable
Framework [32.465949985191635]
本稿では,QuantNetというメタベースの量子化器を提案する。
本手法は, 勾配ミスマッチの問題を解決するだけでなく, 配置中の二項化操作による離散化誤差の影響を低減する。
論文 参考訳(メタデータ) (2020-09-10T01:41:05Z) - FracBits: Mixed Precision Quantization via Fractional Bit-Widths [29.72454879490227]
混合精度量子化は、複数のビット幅での算術演算をサポートするカスタマイズハードウェアで好適である。
本稿では,目標計算制約下での混合精度モデルに基づく学習に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-04T06:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。