論文の概要: SpaceEvo: Hardware-Friendly Search Space Design for Efficient INT8
Inference
- arxiv url: http://arxiv.org/abs/2303.08308v1
- Date: Wed, 15 Mar 2023 01:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:05:07.930627
- Title: SpaceEvo: Hardware-Friendly Search Space Design for Efficient INT8
Inference
- Title(参考訳): SpaceEvo: 効率的なINT8推論のためのハードウェアフレンドリーな検索スペース設計
- Authors: Li Lyna Zhang, Xudong Wang, Jiahang Xu, Quanlu Zhang, Yujing Wang,
Yuqing Yang, Ningxin Zheng, Ting Cao, Mao Yang
- Abstract要約: 本研究では,各対象ハードウェアを対象とした専用量子化フレンドリな検索空間を設計するためのSpaceEvoを提案する。
また,SpaceEvoは手作業で設計した検索空間を最大2.5倍の速度で高速化し,精度も向上した。
- 参考スコア(独自算出の注目度): 15.94147346105013
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The combination of Neural Architecture Search (NAS) and quantization has
proven successful in automatically designing low-FLOPs INT8 quantized neural
networks (QNN). However, directly applying NAS to design accurate QNN models
that achieve low latency on real-world devices leads to inferior performance.
In this work, we find that the poor INT8 latency is due to the
quantization-unfriendly issue: the operator and configuration (e.g., channel
width) choices in prior art search spaces lead to diverse quantization
efficiency and can slow down the INT8 inference speed. To address this
challenge, we propose SpaceEvo, an automatic method for designing a dedicated,
quantization-friendly search space for each target hardware. The key idea of
SpaceEvo is to automatically search hardware-preferred operators and
configurations to construct the search space, guided by a metric called Q-T
score to quantify how quantization-friendly a candidate search space is. We
further train a quantized-for-all supernet over our discovered search space,
enabling the searched models to be directly deployed without extra retraining
or quantization. Our discovered models establish new SOTA INT8 quantized
accuracy under various latency constraints, achieving up to 10.1% accuracy
improvement on ImageNet than prior art CNNs under the same latency. Extensive
experiments on diverse edge devices demonstrate that SpaceEvo consistently
outperforms existing manually-designed search spaces with up to 2.5x faster
speed while achieving the same accuracy.
- Abstract(参考訳): ニューラルネットワーク検索(NAS)と量子化の組み合わせは、低FLOPのINT8量子化ニューラルネットワーク(QNN)を自動設計することに成功した。
しかし、NASを直接適用して実世界のデバイスで低レイテンシを実現する正確なQNNモデルを設計すると、性能は低下する。
従来のアート検索空間における演算子と構成(チャネル幅)の選択は、様々な量子化効率をもたらし、INT8推論速度を遅くすることができる。
この課題に対処するため,SpaceEvoは,対象ハードウェアごとに専用の量子化フレンドリな検索空間を設計するための自動手法である。
spaceevoの重要なアイデアは、ハードウェアが予測したオペレータと構成を自動的に検索して、q-tスコアと呼ばれるメトリクスで導かれる検索空間を構築することで、量子化が候補の検索空間とどのように適合するかを定量化することである。
さらに、発見した検索空間に量子化されたスーパーネットをトレーニングし、検索したモデルを余分な再訓練や量子化なしで直接デプロイできるようにしました。
我々のモデルは、様々なレイテンシ制約の下で新しいSOTA INT8の量子化精度を確立し、同じレイテンシ下での先行技術CNNよりも最大10.1%の精度向上を実現した。
多様なエッジデバイスに関する大規模な実験は、SpaceEvoが既存の手動設計の検索スペースを最大2.5倍高速で上回り、同じ精度を実現していることを示している。
関連論文リスト
- ISQuant: apply squant to the real deployment [0.0]
量子化と復号化の組み合わせがモデルトレーニングに使われている理由を分析する。
8ビットモデルをデプロイするためのソリューションとしてISQuantを提案する。
論文 参考訳(メタデータ) (2024-07-05T15:10:05Z) - Scaling Up Quantization-Aware Neural Architecture Search for Efficient
Deep Learning on the Edge [3.1878884714257008]
本稿では,ブロックワイズNASによって導入されたブロックワイズ式を利用して,大規模タスクにおけるQA-NAS(INT8とFB-MP)を実現する手法を提案する。
本研究では,Cityscapesデータセット上のセマンティックセグメンテーションタスクについて,FB-MPモデルが33%小さく,INT8モデルがタスク性能を損なうことなく,DeepLabV3(INT8)よりも17.6%高速であることを示す。
論文 参考訳(メタデータ) (2024-01-22T20:32:31Z) - Multi-Predict: Few Shot Predictors For Efficient Neural Architecture
Search [10.538869116366415]
本研究では,複数のタスクやNAS検索空間上でのサンプル効率の予測を実現するため,ゼロコストプロキシに基づく新しい検索空間独立NN符号化を提案する。
NN符号化により,NASBench-201からFBNetへ85HW以下の遅延予測器のマルチ検索空間転送が可能となった。
論文 参考訳(メタデータ) (2023-06-04T20:22:14Z) - BossNAS: Exploring Hybrid CNN-transformers with Block-wisely
Self-supervised Neural Architecture Search [100.28980854978768]
BossNAS(Block-wisely Self-supervised Neural Architecture Search)の紹介
探索空間をブロックに分類し、アンサンブルブートストラッピングと呼ばれる新しい自己教師型トレーニングスキームを用いて各ブロックを個別に訓練する。
また,検索可能なダウンサンプリング位置を持つファブリック型cnnトランスフォーマ検索空間であるhytra search spaceを提案する。
論文 参考訳(メタデータ) (2021-03-23T10:05:58Z) - AutoSpace: Neural Architecture Search with Less Human Interference [84.42680793945007]
現在のニューラルネットワークアーキテクチャ検索(NAS)アルゴリズムは、ネットワーク構築のための検索空間を設計するための専門知識と努力を必要とします。
探索空間を最適なものに進化させる新しい微分可能な進化フレームワークであるAutoSpaceを提案する。
学習した検索空間では、最近のNASアルゴリズムの性能は、以前手作業で設計した空間に比べて大幅に改善できる。
論文 参考訳(メタデータ) (2021-03-22T13:28:56Z) - Evolving Search Space for Neural Architecture Search [70.71153433676024]
最適化された検索空間サブセットを維持することにより,前回の取り組みから得られた結果を増幅するニューラルサーチ空間進化(NSE)方式を提案する。
我々は333万のFLOPでImageNet上で77.3%のトップ1リトレーニング精度を実現し、最先端の性能を得た。
遅延制約が適用された場合、我々の結果は、77.9%のTop-1再トレーニング精度を持つ、以前の最高のパフォーマンスのモバイルモデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-11-22T01:11:19Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - Learned Low Precision Graph Neural Networks [10.269500440688306]
ネットワークアーキテクチャサーチ(NAS)を用いて,ニューラルネットワーク(GNN)を最小あるいは全く性能の損失なく体系的に定量化する方法を示す。
提案したNASメカニズムは、LPGNAS(Low Precision Graph NAS)と呼ばれ、アーキテクチャと量子化の選択を区別できるように制約する。
グラフ内の未確認ノードを分類するタスクを解決する8つの異なるデータセットにおいて、LPGNASはモデルサイズとバッファサイズの両方で大幅に削減された量子化されたモデルを生成する。
論文 参考訳(メタデータ) (2020-09-19T13:51:09Z) - LC-NAS: Latency Constrained Neural Architecture Search for Point Cloud
Networks [73.78551758828294]
LC-NASは、最小計算コストでポイントクラウド分類のための最先端アーキテクチャを見つけることができる。
検索したアーキテクチャが、適度に低い精度で、望ましいレイテンシを実現する方法を示します。
論文 参考訳(メタデータ) (2020-08-24T10:30:21Z) - FrostNet: Towards Quantization-Aware Network Architecture Search [8.713741951284886]
本稿では,フル精度(FLOAT32)と量子化(INT8)の両性能を保証するネットワークを見つけるための新しいネットワークアーキテクチャサーチ(NAS)手法を提案する。
我々のFrostNetsは、量子化時に同等のレイテンシを持つ既存のCNNよりも高い認識精度を実現する。
論文 参考訳(メタデータ) (2020-06-17T06:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。