論文の概要: RAPQ: Rescuing Accuracy for Power-of-Two Low-bit Post-training
Quantization
- arxiv url: http://arxiv.org/abs/2204.12322v1
- Date: Tue, 26 Apr 2022 14:02:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 13:57:15.768909
- Title: RAPQ: Rescuing Accuracy for Power-of-Two Low-bit Post-training
Quantization
- Title(参考訳): RAPQ:2ビット後処理量子化の省電力化
- Authors: Hongyi Yao, Pu Li, Jian Cao, Xiangcheng Liu, Chenying Xie and
Bingzhang Wang
- Abstract要約: ハードウェア要件を満たすディープニューラルネットワークのためのPTQ(Power-of-Two post-training Quantization)手法を提案する。
本稿では,ネットワーク全体のパワー・オブ・ツー・スケールを動的に調整する,RAPQと呼ばれる新しいパワー・オブ・ツー・PTQフレームワークを提案する。
我々は、より制約のあるハードウェアフレンドリーなPower-of-Two量子化のためのPTQを提案し、SOTA PTQ法とほぼ同じ精度で実現できることを証明した。
- 参考スコア(独自算出の注目度): 4.8018862391424095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a Power-of-Two post-training quantization( PTQ) method for deep
neural network that meets hardware requirements and does not call for long-time
retraining. PTQ requires a small set of calibration data and is easier for
deployment, but results in lower accuracy than Quantization-Aware Training(
QAT). Power-of-Two quantization can convert the multiplication introduced by
quantization and dequantization to bit-shift that is adopted by many efficient
accelerators. However, the Power-of-Two scale has fewer candidate values, which
leads to more rounding or clipping errors. We propose a novel Power-of-Two PTQ
framework, dubbed RAPQ, which dynamically adjusts the Power-of-Two scales of
the whole network instead of statically determining them layer by layer. It can
theoretically trade off the rounding error and clipping error of the whole
network. Meanwhile, the reconstruction method in RAPQ is based on the BN
information of every unit. Extensive experiments on ImageNet prove the
excellent performance of our proposed method. Without bells and whistles, RAPQ
can reach accuracy of 65% and 48% on ResNet-18 and MobileNetV2 respectively
with weight INT2 activation INT4. We are the first to propose PTQ for the more
constrained but hardware-friendly Power-of-Two quantization and prove that it
can achieve nearly the same accuracy as SOTA PTQ method. The code will be
released.
- Abstract(参考訳): 本稿では,ハードウェア要件を満たす深層ニューラルネットワークのためのPTQ(Power-of-Two post-training Quantization)手法を提案する。
PTQは小さなキャリブレーションデータを必要とし、展開が容易であるが、量子化認識トレーニング(QAT)よりも精度が低い。
2つの量子化のパワーは、量子化と非量子化によってもたらされる乗法を多くの効率的な加速器で採用されるビットシフトに変換することができる。
しかし、Power-of-Twoスケールは候補値が少ないため、ラウンドやクリッピングエラーが増える。
RAPQと呼ばれる新しいPower-of-Two PTQフレームワークを提案し、レイヤごとに静的に決定するのではなく、ネットワーク全体のPower-of-Twoスケールを動的に調整する。
理論上は、ネットワーク全体の丸め誤差とクリップング誤差をトレードオフすることができる。
一方、RAPQの再構成方法は各ユニットのBN情報に基づいている。
ImageNetの大規模な実験により,提案手法の優れた性能が証明された。
ベルとホイッスルがなければ、RAPQ は ResNet-18 と MobileNetV2 でそれぞれ 65% と 48% の精度で INT2 のアクティベーション INT4 を達成できる。
我々は、より制約のあるハードウェアフレンドリーなPower-of-Two量子化のためのPTQを提案し、SOTA PTQ法とほぼ同じ精度で実現できることを証明した。
コードはリリースされます。
関連論文リスト
- 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Designing strong baselines for ternary neural network quantization
through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-30T07:35:07Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - QDrop: Randomly Dropping Quantization for Extremely Low-bit
Post-Training Quantization [54.44028700760694]
ポストトレーニング量子化(PTQ)は、長時間のリトレーニングなしに効率的なニューラルネットワークを生成するために多くの注目を集めている。
本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを先駆的に確認する。
結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに減少させる。
論文 参考訳(メタデータ) (2022-03-11T04:01:53Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。