論文の概要: CSMPQ:Class Separability Based Mixed-Precision Quantization
- arxiv url: http://arxiv.org/abs/2212.10220v1
- Date: Tue, 20 Dec 2022 12:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 16:34:15.223468
- Title: CSMPQ:Class Separability Based Mixed-Precision Quantization
- Title(参考訳): CSMPQ:クラス分離性に基づく混合精度量子化
- Authors: Mingkai Wang, Taisong Jin, Miaohui Zhang, Zhengtao Yu
- Abstract要約: CSMPQと呼ばれる新しい混合精度量子化法を提案する。
具体的には,階層的特徴写像のクラス分離性を測定するために,自然言語処理(NLP)で広く用いられているTF-IDFメトリックを導入する。
CSMPQは、反復的なプロセスがなければ、最先端の量子化法よりも優れた圧縮トレードオフを実現する。
- 参考スコア(独自算出の注目度): 9.005098065862411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixed-precision quantization has received increasing attention for its
capability of reducing the computational burden and speeding up the inference
time. Existing methods usually focus on the sensitivity of different network
layers, which requires a time-consuming search or training process. To this
end, a novel mixed-precision quantization method, termed CSMPQ, is proposed.
Specifically, the TF-IDF metric that is widely used in natural language
processing (NLP) is introduced to measure the class separability of layer-wise
feature maps. Furthermore, a linear programming problem is designed to derive
the optimal bit configuration for each layer. Without any iterative process,
the proposed CSMPQ achieves better compression trade-offs than the
state-of-the-art quantization methods. Specifically, CSMPQ achieves 73.03$\%$
Top-1 acc on ResNet-18 with only 59G BOPs for QAT, and 71.30$\%$ top-1 acc with
only 1.5Mb on MobileNetV2 for PTQ.
- Abstract(参考訳): 混合精度量子化は、計算負担を減らし、推論時間を短縮する能力に注目が集まっている。
既存の方法は通常、異なるネットワーク層の感度に焦点を合わせ、時間を要する検索やトレーニングプロセスを必要とする。
この目的のためにCSMPQと呼ばれる新しい混合精度量子化法を提案する。
具体的には,階層的特徴写像のクラス分離性を測定するために,自然言語処理(NLP)で広く用いられているTF-IDFメトリックを導入する。
さらに、各層に対する最適なビット構成を導出するために線形計画問題を設計する。
反復的なプロセスがなければ、提案するcsmpqは最先端の量子化法よりも優れた圧縮トレードオフを実現する。
具体的には、CSMPQはResNet-18では73.03$\%$ Top-1 acc、QATでは59G BOP、PTQでは71.30$\%$ Top-1 acc、MobileNetV2では1.5Mbである。
関連論文リスト
- EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Gradient-Based Post-Training Quantization: Challenging the Status Quo [23.1120983784623]
量子化は、ディープニューラルネットワークの効率的なデプロイのための重要なステップとなっている。
この研究で、このプロセスは、ある程度は、多くの変数に対して堅牢であることを示す。
我々は、より効率的でスケーラブルなGPTQメソッドを設計するための多くのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2023-08-15T09:25:11Z) - Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Solving Oscillation Problem in Post-Training Quantization Through a
Theoretical Perspective [74.48124653728422]
ポストトレーニング量子化(PTQ)は、事実上最も効率的な圧縮手法の1つである。
我々は、PTQ法で見過ごされた振動問題について論じる。
論文 参考訳(メタデータ) (2023-03-21T14:52:52Z) - CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution [55.50793823060282]
本稿では,画像超解像(SR)ネットワークのための新しいコンテント・アウェア・ダイナミック量子化(CADyQ)手法を提案する。
CADyQは、入力画像のローカル内容に基づいて、局所領域と層に最適なビットを適応的に割り当てる。
パイプラインは様々なSRネットワークでテストされ、いくつかの標準ベンチマークで評価されている。
論文 参考訳(メタデータ) (2022-07-21T07:50:50Z) - SDQ: Stochastic Differentiable Quantization with Mixed Precision [46.232003346732064]
本稿では,MPQ戦略を自動的に学習できる新しい微分可能量子化(SDQ)手法を提案する。
最適なMPQ戦略が得られた後、エントロピーを意識したビン正規化と知識蒸留でネットワークを訓練する。
SDQは、最先端の混合データセット、または低いビット幅で単一精度の量子化よりも優れている。
論文 参考訳(メタデータ) (2022-06-09T12:38:18Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Optimal Qubit Mapping with Simultaneous Gate Absorption [9.530683922512873]
コンパイルにおける重要なステップは、プログラム内の量子ビットを、与えられた量子コンピュータ上の物理量子ビットにマッピングすることである。
OLSQ-GAは、SWAPゲートを同時に吸収する鍵となる特徴を持つ最適量子ビットマッパーである。
OLSQ-GAは、他の最先端手法と比較して、深さを最大50.0%、SWAPカウントを100%削減する。
論文 参考訳(メタデータ) (2021-09-14T05:15:36Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。