論文の概要: APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy
- arxiv url: http://arxiv.org/abs/2006.08509v1
- Date: Mon, 15 Jun 2020 16:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:31:02.789354
- Title: APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy
- Title(参考訳): APQ: ネットワークアーキテクチャ、プルーニング、量子化ポリシーの共同検索
- Authors: Tianzhe Wang, Kuan Wang, Han Cai, Ji Lin, Zhijian Liu, Song Han
- Abstract要約: 本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
- 参考スコア(独自算出の注目度): 49.3037538647714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present APQ for efficient deep learning inference on resource-constrained
hardware. Unlike previous methods that separately search the neural
architecture, pruning policy, and quantization policy, we optimize them in a
joint manner. To deal with the larger design space it brings, a promising
approach is to train a quantization-aware accuracy predictor to quickly get the
accuracy of the quantized model and feed it to the search engine to select the
best fit. However, training this quantization-aware accuracy predictor requires
collecting a large number of quantized <model, accuracy> pairs, which involves
quantization-aware finetuning and thus is highly time-consuming. To tackle this
challenge, we propose to transfer the knowledge from a full-precision (i.e.,
fp32) accuracy predictor to the quantization-aware (i.e., int8) accuracy
predictor, which greatly improves the sample efficiency. Besides, collecting
the dataset for the fp32 accuracy predictor only requires to evaluate neural
networks without any training cost by sampling from a pretrained once-for-all
network, which is highly efficient. Extensive experiments on ImageNet
demonstrate the benefits of our joint optimization approach. With the same
accuracy, APQ reduces the latency/energy by 2x/1.3x over MobileNetV2+HAQ.
Compared to the separate optimization approach (ProxylessNAS+AMC+HAQ), APQ
achieves 2.3% higher ImageNet accuracy while reducing orders of magnitude GPU
hours and CO2 emission, pushing the frontier for green AI that is
environmental-friendly. The code and video are publicly available.
- Abstract(参考訳): 本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
より広い設計空間に対応するために、有望なアプローチは、量子化対応の精度予測器を訓練して、量子化モデルの精度を素早く取得し、最適な適合度を選択するために検索エンジンに供給することである。
しかし、この量子化・認識精度予測器の訓練には、量子化・アウェアの微調整を伴う大量の量子化<model, accuracy>ペアの収集が必要である。
そこで本研究では,全精度 (fp32) 精度予測器から量子化認識 (int8) 精度予測器へ知識を転送し, サンプル効率を大幅に向上させる手法を提案する。
さらに、fp32精度予測器のデータセットの収集には、トレーニング済みの1対1のネットワークからサンプリングすることで、トレーニングコストなしでニューラルネットワークを評価する必要がある。
imagenetに関する広範な実験は、共同最適化アプローチの利点を示しています。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
分離された最適化アプローチ(ProxylessNAS+AMC+HAQ)と比較して、APQは2.3%高画質でGPU時間とCO2排出量のオーダーを削減し、環境に優しいグリーンAIのフロンティアを推し進めている。
コードとビデオは公開されている。
関連論文リスト
- GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust
Parameters of Unseen Limited Precision Neural Networks [80.29667394618625]
Graph Hypernetworks(GHN)は、さまざまな未知のCNNアーキテクチャのパラメータを驚くほど高い精度で予測することができる。
予備研究は、8ビットおよび4ビットの量子化CNNの量子化-ロバストパラメータの予測にGHNを使うことを検討した。
4ビットの量子化CNNのGHN予測パラメータの量子化精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-09-24T23:01:00Z) - OHQ: On-chip Hardware-aware Quantization [55.62734488492329]
我々は,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア・アウェア量子化(OHQ)フレームワークを提案する。
線形プログラミングによるネットワークおよびハードウェアの洞察により、最適化されたビット幅構成が得られる。
ResNet-18 と MobileNetV3 でそれぞれ70% と 73% の精度を実現した。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization
Search [61.636237842419064]
モデルコストの低い高品質な結果を得るためには、混合精度量子化が必要である。
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
提案手法は,一様精度,手動混合精度,最近の整数量子化探索法により改良されたモデルを検出する。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation [2.4149105714758545]
我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
論文 参考訳(メタデータ) (2022-03-22T23:01:43Z) - SQuant: On-the-Fly Data-Free Quantization via Diagonal Hessian
Approximation [22.782678826199206]
ディープニューラルネットワーク(DNN)の量子化は、モデルの圧縮と加速に有効であることが証明されている。
データフリー量子化(DFQ)は、プライバシに敏感で機密性の高いシナリオの下で、オリジナルのデータセットなしでは有望なアプローチである。
本稿では,サブ秒単位の量子化時間を持つDFQフレームワークSQuantを提案する。
論文 参考訳(メタデータ) (2022-02-14T01:57:33Z) - Quantune: Post-training Quantization of Convolutional Neural Networks
using Extreme Gradient Boosting for Fast Deployment [15.720551497037176]
本稿では,量子化の構成の探索を高速化するために,Quantune という自動チューニングを提案する。
我々は、Quantuneが6つのCNNモデルに対して0.07 0.65%の精度で、量子化の探索時間を約36.5倍削減することを示した。
論文 参考訳(メタデータ) (2022-02-10T14:05:02Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。