論文の概要: BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction
- arxiv url: http://arxiv.org/abs/2102.05426v1
- Date: Wed, 10 Feb 2021 13:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 18:00:49.139710
- Title: BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction
- Title(参考訳): BRECQ:ブロック再構築による後量子化の限界を推し進める
- Authors: Yuhang Li, Ruihao Gong, Xu Tan, Yang Yang, Peng Hu, Qi Zhang, Fengwei
Yu, Wei Wang, Shi Gu
- Abstract要約: PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
- 参考スコア(独自算出の注目度): 29.040991149922615
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study the challenging task of neural network quantization without
end-to-end retraining, called Post-training Quantization (PTQ). PTQ usually
requires a small subset of training data but produces less powerful quantized
models than Quantization-Aware Training (QAT). In this work, we propose a novel
PTQ framework, dubbed BRECQ, which pushes the limits of bitwidth in PTQ down to
INT2 for the first time. BRECQ leverages the basic building blocks in neural
networks and reconstructs them one-by-one. In a comprehensive theoretical study
of the second-order error, we show that BRECQ achieves a good balance between
cross-layer dependency and generalization error. To further employ the power of
quantization, the mixed precision technique is incorporated in our framework by
approximating the inter-layer and intra-layer sensitivity. Extensive
experiments on various handcrafted and searched neural architectures are
conducted for both image classification and object detection tasks. And for the
first time we prove that, without bells and whistles, PTQ can attain 4-bit
ResNet and MobileNetV2 comparable with QAT and enjoy 240 times faster
production of quantized models. Codes are available at
https://github.com/yhhhli/BRECQ.
- Abstract(参考訳): エンド・ツー・エンドの再トレーニングを伴わないニューラルネットワーク量子化の課題をptq(post-training quantization)と呼ぶ。
PTQは通常、トレーニングデータの小さなサブセットを必要とするが、Quantization-Aware Training (QAT)よりも強力な量子化モデルを生成する。
本研究では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
BRECQはニューラルネットワークの基本的なビルディングブロックを活用し、それらを1つずつ再構築します。
2次誤差の包括的理論的研究において、BRECQは層間依存性と一般化誤差のバランスが良好であることを示す。
また, 量子化のパワーをさらに活用するために, 層間感度と層内感度を近似して, 混合精度技術が組み込まれている。
画像分類と物体検出タスクにおいて,様々な手作りおよび探索型ニューラルネットワークの広範な実験を行った。
そして、初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明しました。
コードはhttps://github.com/yhhli/BRECQで入手できる。
関連論文リスト
- Projected Stochastic Gradient Descent with Quantum Annealed Binary Gradients [51.82488018573326]
重み付きニューラルネットワークのトレーニングに適した,新しいレイヤワイドオプティマイザであるQP-SBGDを提案する。
BNNは、深層学習モデルの計算要求とエネルギー消費を最小限の精度で削減する。
提案アルゴリズムは階層的に実装されており,リソース制限量子ハードウェア上での大規模ネットワークのトレーニングに適している。
論文 参考訳(メタデータ) (2023-10-23T17:32:38Z) - RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models [14.07649230604283]
モデル精度を向上させるために,量子化意識トレーニング(QAT)プロセスに対する低複雑性な変更を提案する。
精度が向上し、ノイズベースのQATの他の利点を活用できるようになる。
論文 参考訳(メタデータ) (2023-05-24T19:45:56Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - RAPQ: Rescuing Accuracy for Power-of-Two Low-bit Post-training
Quantization [4.8018862391424095]
ハードウェア要件を満たすディープニューラルネットワークのためのPTQ(Power-of-Two post-training Quantization)手法を提案する。
本稿では,ネットワーク全体のパワー・オブ・ツー・スケールを動的に調整する,RAPQと呼ばれる新しいパワー・オブ・ツー・PTQフレームワークを提案する。
我々は、より制約のあるハードウェアフレンドリーなPower-of-Two量子化のためのPTQを提案し、SOTA PTQ法とほぼ同じ精度で実現できることを証明した。
論文 参考訳(メタデータ) (2022-04-26T14:02:04Z) - QDrop: Randomly Dropping Quantization for Extremely Low-bit
Post-Training Quantization [54.44028700760694]
ポストトレーニング量子化(PTQ)は、長時間のリトレーニングなしに効率的なニューラルネットワークを生成するために多くの注目を集めている。
本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを先駆的に確認する。
結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに減少させる。
論文 参考訳(メタデータ) (2022-03-11T04:01:53Z) - MQBench: Towards Reproducible and Deployable Model Quantization
Benchmark [53.12623958951738]
MQBenchは、モデル量子化アルゴリズムの評価、分析、およびデプロイ可能性のベンチマークを行う最初の試みである。
我々は、CPU、GPU、ASIC、DSPを含む実世界のデプロイのための複数のプラットフォームを選択し、最先端の量子化アルゴリズムを評価する。
包括的な分析を行い、直感的、直感的、あるいは反直感的な洞察を見出す。
論文 参考訳(メタデータ) (2021-11-05T23:38:44Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。