論文の概要: FrostNet: Towards Quantization-Aware Network Architecture Search
- arxiv url: http://arxiv.org/abs/2006.09679v4
- Date: Mon, 30 Nov 2020 10:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:07:43.468100
- Title: FrostNet: Towards Quantization-Aware Network Architecture Search
- Title(参考訳): FrostNet: 量子化対応ネットワークアーキテクチャ検索を目指して
- Authors: Taehoon Kim, YoungJoon Yoo, Jihoon Yang
- Abstract要約: 本稿では,フル精度(FLOAT32)と量子化(INT8)の両性能を保証するネットワークを見つけるための新しいネットワークアーキテクチャサーチ(NAS)手法を提案する。
我々のFrostNetsは、量子化時に同等のレイテンシを持つ既存のCNNよりも高い認識精度を実現する。
- 参考スコア(独自算出の注目度): 8.713741951284886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: INT8 quantization has become one of the standard techniques for deploying
convolutional neural networks (CNNs) on edge devices to reduce the memory and
computational resource usages. By analyzing quantized performances of existing
mobile-target network architectures, we can raise an issue regarding the
importance of network architecture for optimal INT8 quantization. In this
paper, we present a new network architecture search (NAS) procedure to find a
network that guarantees both full-precision (FLOAT32) and quantized (INT8)
performances. We first propose critical but straightforward optimization method
which enables quantization-aware training (QAT) : floating-point statistic
assisting (StatAssist) and stochastic gradient boosting (GradBoost). By
integrating the gradient-based NAS with StatAssist and GradBoost, we discovered
a quantization-efficient network building block, Frost bottleneck. Furthermore,
we used Frost bottleneck as the building block for hardware-aware NAS to obtain
quantization-efficient networks, FrostNets, which show improved quantization
performances compared to other mobile-target networks while maintaining
competitive FLOAT32 performance. Our FrostNets achieve higher recognition
accuracy than existing CNNs with comparable latency when quantized, due to
higher latency reduction rate (average 65%).
- Abstract(参考訳): int8量子化は、メモリと計算リソースの使用を減らすために、畳み込みニューラルネットワーク(cnns)をエッジデバイスにデプロイする標準的な技術の一つとなっている。
既存のモバイルターゲットネットワークアーキテクチャの量子化性能を解析することにより、最適なINT8量子化のためのネットワークアーキテクチャの重要性に関する問題を提起することができる。
本稿では、フル精度(FLOAT32)と量子化(INT8)の両方の性能を保証するネットワークを見つけるための新しいネットワークアーキテクチャサーチ(NAS)手法を提案する。
まず、量子化対応トレーニング(QAT)を可能にするクリティカルだが簡単な最適化手法を提案し、浮動小数点統計アシスト(StatAssist)と確率勾配増強(GradBoost)を提案する。
勾配に基づくNASをStatAssistとGradBoostと組み合わせることで、量子化効率の高いネットワーク構築ブロックFrostのボトルネックを発見した。
さらに,ハードウェアアウェアnasのビルディングブロックとしてフロストボトルネックを用いて量子化効率の高いネットワークであるfrostnetsを取得し,他のモバイルターゲットネットワークに比べて量子化性能が向上し,float32の性能も向上した。
我々のフロストネットは、量子化時に同等のレイテンシを持つ既存のcnnよりも高い認識精度を実現している(平均65%)。
関連論文リスト
- Scaling Up Quantization-Aware Neural Architecture Search for Efficient
Deep Learning on the Edge [3.1878884714257008]
本稿では,ブロックワイズNASによって導入されたブロックワイズ式を利用して,大規模タスクにおけるQA-NAS(INT8とFB-MP)を実現する手法を提案する。
本研究では,Cityscapesデータセット上のセマンティックセグメンテーションタスクについて,FB-MPモデルが33%小さく,INT8モデルがタスク性能を損なうことなく,DeepLabV3(INT8)よりも17.6%高速であることを示す。
論文 参考訳(メタデータ) (2024-01-22T20:32:31Z) - SpaceEvo: Hardware-Friendly Search Space Design for Efficient INT8
Inference [15.94147346105013]
本研究では,各対象ハードウェアを対象とした専用量子化フレンドリな検索空間を設計するためのSpaceEvoを提案する。
また,SpaceEvoは手作業で設計した検索空間を最大2.5倍の速度で高速化し,精度も向上した。
論文 参考訳(メタデータ) (2023-03-15T01:41:21Z) - FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation [2.4149105714758545]
我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
論文 参考訳(メタデータ) (2022-03-22T23:01:43Z) - FLASH: Fast Neural Architecture Search with Hardware Optimization [7.263481020106725]
ニューラルアーキテクチャサーチ(NAS)は、効率的かつ高性能なディープニューラルネットワーク(DNN)を設計するための有望な手法である
本稿では,実ハードウェアプラットフォーム上でのDNNの精度と性能を協調的に最適化する,非常に高速なNAS手法であるFLASHを提案する。
論文 参考訳(メタデータ) (2021-08-01T23:46:48Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Subtensor Quantization for Mobilenets [5.735035463793008]
ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。
本稿では,量子化損失の根本原因について分析し,チャネル単位やトレーニング対応のアプローチに依存しない代替案を提案する。
我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の量子化8ビット推論トップ1の精度を評価する。
論文 参考訳(メタデータ) (2020-11-04T15:41:47Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - LC-NAS: Latency Constrained Neural Architecture Search for Point Cloud
Networks [73.78551758828294]
LC-NASは、最小計算コストでポイントクラウド分類のための最先端アーキテクチャを見つけることができる。
検索したアーキテクチャが、適度に低い精度で、望ましいレイテンシを実現する方法を示します。
論文 参考訳(メタデータ) (2020-08-24T10:30:21Z) - FBNetV3: Joint Architecture-Recipe Search using Predictor Pretraining [65.39532971991778]
サンプル選択とランキングの両方を導くことで、アーキテクチャとトレーニングのレシピを共同でスコアする精度予測器を提案する。
高速な進化的検索をCPU分で実行し、さまざまなリソース制約に対するアーキテクチャと準備のペアを生成します。
FBNetV3は最先端のコンパクトニューラルネットワークのファミリーを構成しており、自動と手動で設計された競合より優れている。
論文 参考訳(メタデータ) (2020-06-03T05:20:21Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - Towards Unified INT8 Training for Convolutional Neural Network [83.15673050981624]
共用畳み込みニューラルネットワークのための統合8ビット(INT8)トレーニングフレームワークを構築した。
まず、勾配の4つの特徴を経験的に発見し、勾配量子化の洞察力のある手がかりを与える。
勾配の方向ずれを低減させる方向感度勾配クリッピングを含む2つの普遍的手法を提案する。
論文 参考訳(メタデータ) (2019-12-29T08:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。