論文の概要: Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment
- arxiv url: http://arxiv.org/abs/2202.05048v1
- Date: Thu, 10 Feb 2022 14:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 16:28:11.882277
- Title: Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment
- Title(参考訳): Quantune: 高速展開のための極勾配ブーストを用いた畳み込みニューラルネットワークのトレーニング後の量子化
- Authors: Jemin Lee, Misun Yu, Yongin Kwon, Teaho Kim
- Abstract要約: 本稿では,量子化の構成の探索を高速化するために,Quantune という自動チューニングを提案する。
我々は、Quantuneが6つのCNNモデルに対して0.07 0.65%の精度で、量子化の探索時間を約36.5倍削減することを示した。
- 参考スコア(独自算出の注目度): 15.720551497037176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To adopt convolutional neural networks (CNN) for a range of
resource-constrained targets, it is necessary to compress the CNN models by
performing quantization, whereby precision representation is converted to a
lower bit representation. To overcome problems such as sensitivity of the
training dataset, high computational requirements, and large time consumption,
post-training quantization methods that do not require retraining have been
proposed. In addition, to compensate for the accuracy drop without retraining,
previous studies on post-training quantization have proposed several
complementary methods: calibration, schemes, clipping, granularity, and
mixed-precision. To generate a quantized model with minimal error, it is
necessary to study all possible combinations of the methods because each of
them is complementary and the CNN models have different characteristics.
However, an exhaustive or a heuristic search is either too time-consuming or
suboptimal. To overcome this challenge, we propose an auto-tuner known as
Quantune, which builds a gradient tree boosting model to accelerate the search
for the configurations of quantization and reduce the quantization error. We
evaluate and compare Quantune with the random, grid, and genetic algorithms.
The experimental results show that Quantune reduces the search time for
quantization by approximately 36.5x with an accuracy loss of 0.07 ~ 0.65%
across six CNN models, including the fragile ones (MobileNet, SqueezeNet, and
ShuffleNet). To support multiple targets and adopt continuously evolving
quantization works, Quantune is implemented on a full-fledged compiler for deep
learning as an open-sourced project.
- Abstract(参考訳): 資源制約対象の範囲に畳み込みニューラルネットワーク(cnn)を採用するには、量子化を行うことでcnnモデルを圧縮し、精度表現を低ビット表現に変換する必要がある。
トレーニングデータセットの感度、高い計算要求、そして大きな時間消費といった問題を克服するために、再トレーニングを必要としないトレーニング後の量子化手法が提案されている。
さらに, 再トレーニングを伴わない精度低下を補うために, キャリブレーション, スキーム, クリッピング, 粒度, 混合精度の2つの相補的手法が提案されている。
最小誤差で量子化モデルを生成するためには,それぞれが相補的であり,CNNモデルが異なる特性を持つため,メソッドの可能な組み合わせについて検討する必要がある。
しかし、徹底的な検索やヒューリスティック検索は時間がかかりすぎるか、最適ではない。
この課題を克服するために, 傾斜木ブースティングモデルを構築し, 量子化構成の探索を高速化し, 量子化誤差を低減させる, quantune と呼ばれる自動チューナーを提案する。
我々はQuantuneをランダム、グリッド、遺伝的アルゴリズムと比較した。
実験の結果、量子化の探索時間を約36.5倍に短縮し、6つのcnnモデル (mobilenet, squeezenet, shufflenet) において0.07~0.65%の精度損失を示した。
複数のターゲットをサポートし、継続的に進化する量子化作業を採用するために、Quantuneは、オープンソースのプロジェクトとしてディープラーニングのための本格的なコンパイラに実装されている。
関連論文リスト
- ISQuant: apply squant to the real deployment [0.0]
量子化と復号化の組み合わせがモデルトレーニングに使われている理由を分析する。
8ビットモデルをデプロイするためのソリューションとしてISQuantを提案する。
論文 参考訳(メタデータ) (2024-07-05T15:10:05Z) - GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust
Parameters of Unseen Limited Precision Neural Networks [80.29667394618625]
Graph Hypernetworks(GHN)は、さまざまな未知のCNNアーキテクチャのパラメータを驚くほど高い精度で予測することができる。
予備研究は、8ビットおよび4ビットの量子化CNNの量子化-ロバストパラメータの予測にGHNを使うことを検討した。
4ビットの量子化CNNのGHN予測パラメータの量子化精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-09-24T23:01:00Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Post-Training Piecewise Linear Quantization for Deep Neural Networks [13.717228230596167]
リソース制限されたデバイスへのディープニューラルネットワークのエネルギー効率向上において、量子化は重要な役割を果たす。
本稿では,長い尾を持つベル形状のテンソル値の正確な近似を実現するために,一方向線形量子化方式を提案する。
提案手法は,最先端のポストトレーニング量子化手法と比較して,画像分類,セマンティックセグメンテーション,オブジェクト検出においてわずかなオーバーヘッドで優れた性能を実現する。
論文 参考訳(メタデータ) (2020-01-31T23:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。