論文の概要: BatchQuant: Quantized-for-all Architecture Search with Robust Quantizer
- arxiv url: http://arxiv.org/abs/2105.08952v1
- Date: Wed, 19 May 2021 06:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 13:59:00.338727
- Title: BatchQuant: Quantized-for-all Architecture Search with Robust Quantizer
- Title(参考訳): BatchQuant:ロバスト量子化器による全アーキテクチャ検索
- Authors: Haoping Bai, Meng Cao, Ping Huang, Jiulong Shan
- Abstract要約: BatchQuantは、コンパクトで単発、混合精度、重量共有スーパーネットの高速で安定したトレーニングを可能にする、堅牢な量子化器の定式化である。
我々は,この手法の有効性をImageNet上で実証し,低複雑性制約下でSOTA Top-1の精度を実現する。
- 参考スコア(独自算出の注目度): 10.483508279350195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the applications of deep learning models on edge devices increase at an
accelerating pace, fast adaptation to various scenarios with varying resource
constraints has become a crucial aspect of model deployment. As a result, model
optimization strategies with adaptive configuration are becoming increasingly
popular. While single-shot quantized neural architecture search enjoys
flexibility in both model architecture and quantization policy, the combined
search space comes with many challenges, including instability when training
the weight-sharing supernet and difficulty in navigating the exponentially
growing search space. Existing methods tend to either limit the architecture
search space to a small set of options or limit the quantization policy search
space to fixed precision policies. To this end, we propose BatchQuant, a robust
quantizer formulation that allows fast and stable training of a compact,
single-shot, mixed-precision, weight-sharing supernet. We employ BatchQuant to
train a compact supernet (offering over $10^{76}$ quantized subnets) within
substantially fewer GPU hours than previous methods. Our approach,
Quantized-for-all (QFA), is the first to seamlessly extend one-shot
weight-sharing NAS supernet to support subnets with arbitrary ultra-low
bitwidth mixed-precision quantization policies without retraining. QFA opens up
new possibilities in joint hardware-aware neural architecture search and
quantization. We demonstrate the effectiveness of our method on ImageNet and
achieve SOTA Top-1 accuracy under a low complexity constraint ($<20$ MFLOPs).
The code and models will be made publicly available at
https://github.com/bhpfelix/QFA.
- Abstract(参考訳): エッジデバイスへのディープラーニングモデルの適用が加速するにつれて、リソース制約の異なるさまざまなシナリオへの迅速な適応が、モデルデプロイメントの重要な側面となっている。
その結果,適応型構成によるモデル最適化戦略がますます普及している。
シングルショット量子化ニューラルネットワークの検索は、モデルアーキテクチャと量子化ポリシーの両方において柔軟性を享受しているが、複合検索空間には、重み共有スーパーネットのトレーニングにおける不安定性や、指数的に増加する検索空間のナビゲートの難しさなど、多くの課題がある。
既存の手法では、アーキテクチャ検索スペースを少数のオプションに制限するか、量子化ポリシー検索スペースを固定精度ポリシーに制限する傾向にある。
そこで本研究では,コンパクトで単発,混合精度,重み共有型スーパーネットの高速かつ安定なトレーニングを実現する,ロバストな量子化公式である batchquant を提案する。
我々はBatchQuantを使って、従来の方法よりもGPU時間が少なくて、コンパクトなスーパーネット(量子化サブネット10〜76ドル以上)をトレーニングしています。
私たちのアプローチであるquantized-for-all(qfa)は、ワンショットの重量共有nasスーパーネットをシームレスに拡張し、任意の超低ビット幅混合精度量子化ポリシーでサブネットをサポートする最初の方法です。
QFAは、ハードウェアを意識したニューラルアーキテクチャ検索と量子化の新たな可能性を開く。
本手法の有効性をImageNet上で実証し,低複雑性制約(<20$MFLOPs)下でSOTA Top-1精度を実現する。
コードとモデルはhttps://github.com/bhpfelix/QFA.comで公開される。
関連論文リスト
- Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions [121.05720140641189]
蒸留型ニューラルアーキテクチャ(DNA)技術を用いたモデル群を開発した。
提案するDNAモデルでは,アルゴリズムを用いてサブサーチ空間にのみアクセス可能な従来の手法とは対照的に,すべてのアーキテクチャ候補を評価できる。
当社のモデルでは,モバイルコンボリューションネットワークと小型ビジョントランスフォーマーにおいて,ImageNet上で78.9%,83.6%の最先端トップ1精度を実現している。
論文 参考訳(メタデータ) (2024-03-02T22:16:47Z) - SimQ-NAS: Simultaneous Quantization Policy and Neural Architecture
Search [6.121126813817338]
最近のワンショットニューラルネットワーク検索アルゴリズムは、特定のタスクに適したハードウェアに依存しないスーパーネットワークをトレーニングし、異なるハードウェアプラットフォームのための効率的なサブネットワークを抽出する。
我々は,光学習された予測器と組み合わせた多目的探索アルゴリズムを用いることで,サブネットワークアーキテクチャとそれに対応する量子化ポリシーの両方を効率的に探索できることを示す。
論文 参考訳(メタデータ) (2023-12-19T22:08:49Z) - EQ-Net: Elastic Quantization Neural Networks [15.289359357583079]
Elastic Quantization Neural Networks (EQ-Net) は、堅牢な重み共有量子化スーパーネットのトレーニングを目的としている。
本稿では, 様々な主要な量形式に対応するために, 弾性量子化空間(弾性ビット幅, 粒度, 対称性を含む)を提案する。
遺伝的アルゴリズムと,提案した条件量子化対応条件精度予測器(CQAP)を推定器として組み込んで,混合精度量子ニューラルネットワークを高速に探索する。
論文 参考訳(メタデータ) (2023-08-15T08:57:03Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - QuantNAS for super resolution: searching for efficient
quantization-friendly architectures against quantization noise [19.897685398009912]
本稿では,新しい量子化対応手法であるQuantNASを提案する。
本稿では,エントロピー正則化,量子化ノイズ,適応偏差法(adaptive Deviation for Quantization,ADQ)モジュールを用いて探索手順を強化する。
提案手法は直接量量化よりも30%高速で、より安定である。
論文 参考訳(メタデータ) (2022-08-31T13:12:16Z) - Generalizing Few-Shot NAS with Gradient Matching [165.5690495295074]
One-Shotメソッドは、1つのスーパーネットをトレーニングし、ウェイトシェアリングを通じて検索空間内の全てのアーキテクチャのパフォーマンスを近似する。
Few-Shot NASは、One-Shotスーパーネットを複数のサブスーパーネットに分割することで、ウェイトシェアリングのレベルを下げる。
Few-Shotよりも優れており、派生したアーキテクチャの精度という点では、従来の同等の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-03-29T03:06:16Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。