論文の概要: SQuant: On-the-Fly Data-Free Quantization via Diagonal Hessian
Approximation
- arxiv url: http://arxiv.org/abs/2202.07471v1
- Date: Mon, 14 Feb 2022 01:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 10:56:43.858797
- Title: SQuant: On-the-Fly Data-Free Quantization via Diagonal Hessian
Approximation
- Title(参考訳): SQuant: 対角ヘッセン近似によるオンザフライデータ自由量子化
- Authors: Cong Guo, Yuxian Qiu, Jingwen Leng, Xiaotian Gao, Chen Zhang, Yunxin
Liu, Fan Yang, Yuhao Zhu, Minyi Guo
- Abstract要約: ディープニューラルネットワーク(DNN)の量子化は、モデルの圧縮と加速に有効であることが証明されている。
データフリー量子化(DFQ)は、プライバシに敏感で機密性の高いシナリオの下で、オリジナルのデータセットなしでは有望なアプローチである。
本稿では,サブ秒単位の量子化時間を持つDFQフレームワークSQuantを提案する。
- 参考スコア(独自算出の注目度): 22.782678826199206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization of deep neural networks (DNN) has been proven effective for
compressing and accelerating DNN models. Data-free quantization (DFQ) is a
promising approach without the original datasets under privacy-sensitive and
confidential scenarios. However, current DFQ solutions degrade accuracy, need
synthetic data to calibrate networks, and are time-consuming and costly. This
paper proposes an on-the-fly DFQ framework with sub-second quantization time,
called SQuant, which can quantize networks on inference-only devices with low
computation and memory requirements. With the theoretical analysis of the
second-order information of DNN task loss, we decompose and approximate the
Hessian-based optimization objective into three diagonal sub-items, which have
different areas corresponding to three dimensions of weight tensor:
element-wise, kernel-wise, and output channel-wise. Then, we progressively
compose sub-items and propose a novel data-free optimization objective in the
discrete domain, minimizing Constrained Absolute Sum of Error (or CASE in
short), which surprisingly does not need any dataset and is even not aware of
network architecture. We also design an efficient algorithm without
back-propagation to further reduce the computation complexity of the objective
solver. Finally, without fine-tuning and synthetic datasets, SQuant accelerates
the data-free quantization process to a sub-second level with >30% accuracy
improvement over the existing data-free post-training quantization works, with
the evaluated models under 4-bit quantization. We have open-sourced the SQuant
framework at https://github.com/clevercool/SQuant.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の量子化は、DNNモデルの圧縮と加速に有効であることが証明されている。
データフリー量子化(DFQ)は、プライバシに敏感で機密性の高いシナリオの下で、オリジナルのデータセットなしでは有望なアプローチである。
しかし、現在のDFQソリューションは精度を低下させ、ネットワークを校正するために合成データを必要とし、時間と費用がかかる。
本稿では,SQuantと呼ばれるサブ秒単位の量子化時間を持つオンザフライDFQフレームワークを提案する。
dnnタスクロスの2次情報の理論的解析により、重みテンソルの3次元に対応する異なる領域を持つ3つの対角形部分項目(要素単位、カーネル単位、出力チャネル単位)にヘッセンに基づく最適化目標を分解、近似する。
そこで,本研究では,データセットを必要とせず,ネットワークアーキテクチャにさえ気付かない制約付き絶対誤差和(あるいは,略してCASE)を最小化する,離散領域における新たなデータフリー最適化目標を提案する。
また,計算量を削減するために,バックプロパゲーションを伴わない効率的なアルゴリズムを設計した。
最後に、微調整と合成データセットなしでは、squaantは4ビット量子化の評価モデルを用いて、既存のデータなし後トレーニング量子化作業よりも30%精度が向上し、データフリー量子化プロセスをサブ秒レベルに加速する。
私たちはSQuantフレームワークをhttps://github.com/clevercool/SQuantでオープンソース化しました。
関連論文リスト
- NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment [15.720551497037176]
本稿では,量子化の構成の探索を高速化するために,Quantune という自動チューニングを提案する。
我々は、Quantuneが6つのCNNモデルに対して0.07 0.65%の精度で、量子化の探索時間を約36.5倍削減することを示した。
論文 参考訳(メタデータ) (2022-02-10T14:05:02Z) - Q-SpiNN: A Framework for Quantizing Spiking Neural Networks [14.727296040550392]
精度を著しく低下させることなく、スパイキングニューラルネットワーク(SNN)のメモリフットプリントを削減するための顕著なテクニックは量子化である。
メモリ効率の高いSNNのための新しい量子化フレームワークQ-SpiNNを提案する。
教師なしネットワークでは、Q-SpiNNはメモリフットプリントを4倍削減し、MNISTデータセットのベースラインから1%以内の精度を維持する。
教師ネットワークでは、Q-SpiNNは、DVS-Gestureデータセットのベースラインから2%以内の精度を維持しながら、メモリを2倍削減する。
論文 参考訳(メタデータ) (2021-07-05T06:01:15Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Filter Pre-Pruning for Improved Fine-tuning of Quantized Deep Neural
Networks [0.0]
本稿では,DNNの微調整を妨害するフィルタを除去するPruning for Quantization (PfQ)と呼ばれる新しいプルーニング手法を提案する。
良く知られたモデルとデータセットを用いた実験により,提案手法が類似したモデルサイズで高い性能を実現することを確認した。
論文 参考訳(メタデータ) (2020-11-13T04:12:54Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文 参考訳(メタデータ) (2020-05-18T07:38:44Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。