論文の概要: QDrop: Randomly Dropping Quantization for Extremely Low-bit
Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2203.05740v1
- Date: Fri, 11 Mar 2022 04:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-14 11:53:12.164701
- Title: QDrop: Randomly Dropping Quantization for Extremely Low-bit
Post-Training Quantization
- Title(参考訳): QDrop: 極低ビット後トレーニング量子化のためのランダムドロップ量子化
- Authors: Xiuying Wei, Ruihao Gong, Yuhang Li, Xianglong Liu, Fengwei Yu
- Abstract要約: ポストトレーニング量子化(PTQ)は、長時間のリトレーニングなしに効率的なニューラルネットワークを生成するために多くの注目を集めている。
本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを先駆的に確認する。
結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに減少させる。
- 参考スコア(独自算出の注目度): 54.44028700760694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, post-training quantization (PTQ) has driven much attention to
produce efficient neural networks without long-time retraining. Despite its low
cost, current PTQ works tend to fail under the extremely low-bit setting. In
this study, we pioneeringly confirm that properly incorporating activation
quantization into the PTQ reconstruction benefits the final accuracy. To deeply
understand the inherent reason, a theoretical framework is established,
indicating that the flatness of the optimized low-bit model on calibration and
test data is crucial. Based on the conclusion, a simple yet effective approach
dubbed as QDROP is proposed, which randomly drops the quantization of
activations during PTQ. Extensive experiments on various tasks including
computer vision (image classification, object detection) and natural language
processing (text classification and question answering) prove its superiority.
With QDROP, the limit of PTQ is pushed to the 2-bit activation for the first
time and the accuracy boost can be up to 51.49%. Without bells and whistles,
QDROP establishes a new state of the art for PTQ. Our code is available at
https://github.com/wimh966/QDrop and has been integrated into MQBench
(https://github.com/ModelTC/MQBench)
- Abstract(参考訳): 近年、PTQ(Post-training Quantization)は、長時間のトレーニングを伴わない効率的なニューラルネットワークの実現に多くの注目を集めている。
コストは低いが、現在のptqは極めて低ビット設定で失敗する傾向がある。
本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを確認する。
そこで, キャリブレーションとテストデータに対する最適化低ビットモデルの平坦性が重要であることを示す理論的枠組みを構築した。
結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに落とす。
コンピュータビジョン (画像分類, オブジェクト検出) や自然言語処理 (テキスト分類, 質問応答) など, 様々なタスクに対する広範な実験は, その優位性を証明している。
QDROPでは、PTQの制限が初めて2ビットアクティベーションにプッシュされ、精度が最大51.49%向上する。
ベルとホイッスルがなければ、QDROPはPTQのための新しい最先端技術を確立する。
私たちのコードはhttps://github.com/wimh966/QDropで利用可能で、MQBench (https://github.com/ModelTC/MQBench)に統合されています。
関連論文リスト
- EfQAT: An Efficient Framework for Quantization-Aware Training [20.47826378511535]
量子化対応トレーニング(QAT)スキームは、ほぼ完全な精度を実現することが示されている。
ポストトレーニング量子化(PTQ)スキームはトレーニングを伴わないため、計算的に安価である。
本稿では、量子化モデルのパラメータのサブセットのみを最適化することにより、両方のスキームを一般化するEfQATを提案する。
論文 参考訳(メタデータ) (2024-11-17T11:06:36Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Designing strong baselines for ternary neural network quantization
through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-30T07:35:07Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z) - RAPQ: Rescuing Accuracy for Power-of-Two Low-bit Post-training
Quantization [4.8018862391424095]
ハードウェア要件を満たすディープニューラルネットワークのためのPTQ(Power-of-Two post-training Quantization)手法を提案する。
本稿では,ネットワーク全体のパワー・オブ・ツー・スケールを動的に調整する,RAPQと呼ばれる新しいパワー・オブ・ツー・PTQフレームワークを提案する。
我々は、より制約のあるハードウェアフレンドリーなPower-of-Two量子化のためのPTQを提案し、SOTA PTQ法とほぼ同じ精度で実現できることを証明した。
論文 参考訳(メタデータ) (2022-04-26T14:02:04Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - ZeroQ: A Novel Zero Shot Quantization Framework [83.63606876854168]
量子化は、ニューラルネットワークの推論時間とメモリフットプリントを削減するための有望なアプローチである。
既存のゼロショット量子化法では、異なるエポックを用いてこの問題に対処するが、性能は低下する。
本稿では,この問題に対処する新しいゼロショット量子化フレームワークであるZeroQを提案する。
論文 参考訳(メタデータ) (2020-01-01T23:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。