論文の概要: Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search
- arxiv url: http://arxiv.org/abs/2010.04354v3
- Date: Tue, 28 Sep 2021 06:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:17:10.578239
- Title: Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search
- Title(参考訳): 量子化学習 - 高性能で極低ビットアーキテクチャ検索
- Authors: Mingzhu Shen, Feng Liang, Ruihao Gong, Yuhang Li, Chuming Li, Chen
Lin, Fengwei Yu, Junjie Yan, Wanli Ouyang
- Abstract要約: 本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
- 参考スコア(独自算出の注目度): 112.05977301976613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization Neural Networks (QNN) have attracted a lot of attention due to
their high efficiency. To enhance the quantization accuracy, prior works mainly
focus on designing advanced quantization algorithms but still fail to achieve
satisfactory results under the extremely low-bit case. In this work, we take an
architecture perspective to investigate the potential of high-performance QNN.
Therefore, we propose to combine Network Architecture Search methods with
quantization to enjoy the merits of the two sides. However, a naive combination
inevitably faces unacceptable time consumption or unstable training problem. To
alleviate these problems, we first propose the joint training of architecture
and quantization with a shared step size to acquire a large number of quantized
models. Then a bit-inheritance scheme is introduced to transfer the quantized
models to the lower bit, which further reduces the time cost and meanwhile
improves the quantization accuracy. Equipped with this overall framework,
dubbed as Once Quantization-Aware Training~(OQAT), our searched model family,
OQATNets, achieves a new state-of-the-art compared with various architectures
under different bit-widths. In particular, OQAT-2bit-M achieves 61.6% ImageNet
Top-1 accuracy, outperforming 2-bit counterpart MobileNetV3 by a large margin
of 9% with 10% less computation cost. A series of quantization-friendly
architectures are identified easily and extensive analysis can be made to
summarize the interaction between quantization and neural architectures. Codes
and models are released at https://github.com/LaVieEnRoseSMZ/OQA
- Abstract(参考訳): 量子化ニューラルネットワーク(QNN)はその高効率性のために多くの注目を集めている。
量子化の精度を高めるために、先行研究は主に高度な量子化アルゴリズムの設計に焦点をあてるが、非常に低ビットの場合では良好な結果が得られない。
本研究では,アーキテクチャの観点から,高性能QNNの可能性を検討する。
そこで本研究では,ネットワークアーキテクチャ探索法と量子化を組み合わせることで,両者のメリットを享受する。
しかし、ナイーブの組み合わせは必然的に時間の消費や不安定なトレーニング問題に直面している。
これらの問題を緩和するため,我々はまず,多数の量子化モデルを取得するために,共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上する。
once Quantization-Aware Training~(OQAT)と呼ばれるこのフレームワークが組み込まれており、検索されたモデルファミリーであるOQATNetsは、異なるビット幅の様々なアーキテクチャと比較して、新しい最先端技術を実現します。
特に、OQAT-2bit-M は 61.6% ImageNet Top-1 の精度を達成し、2ビットの MobileNetV3 を9%、計算コストを10%削減した。
量子化にやさしい一連のアーキテクチャは容易に同定でき、量子化とニューラルネットワークの相互作用を要約するために広範囲な分析を行うことができる。
コードとモデルはhttps://github.com/lavieenrosesmz/oqaでリリース
関連論文リスト
- ARQ: A Mixed-Precision Quantization Framework for Accurate and Certifiably Robust DNNs [15.43153209571646]
混合精度量子化は、限られたリソースコンピューティングプラットフォーム上でディープニューラルネットワーク(DNN)の実行を可能にする重要な技術となっている。
本稿では、スムーズな分類器のクリーンな精度を保ちつつ、その信頼性を保ちながら、新しい混合精度量子化手法であるARQを紹介する。
論文 参考訳(メタデータ) (2024-10-31T17:59:37Z) - AdaQAT: Adaptive Bit-Width Quantization-Aware Training [0.873811641236639]
大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
論文 参考訳(メタデータ) (2024-04-22T09:23:56Z) - SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - Modular Quantization-Aware Training for 6D Object Pose Estimation [52.9436648014338]
エッジアプリケーションは、リソース制約された組み込みプラットフォーム上で効率的な6Dオブジェクトのポーズ推定を要求する。
本稿では,適応的かつ高精度な量子化学習戦略であるMQAT(Modular Quantization-Aware Training)を紹介する。
MQATは、モジュール固有のビット精度を導出し、モジュール固有の量子化シーケンスを導出し、最先端の均一および混合精度の量子化技術によって生成されたものより優れた量子化モデルをもたらす。
論文 参考訳(メタデータ) (2023-03-12T21:01:54Z) - GHN-Q: Parameter Prediction for Unseen Quantized Convolutional
Architectures via Graph Hypernetworks [80.29667394618625]
我々は,未知の量子化CNNアーキテクチャのパラメータの予測にグラフハイパーネットを用いることを初めて検討した。
我々は、CNNの探索空間の縮小に着目し、GHN-Qが実際に8ビットの量子化されたCNNの量子化-ロバストパラメータを予測できることを見出した。
論文 参考訳(メタデータ) (2022-08-26T08:00:02Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Training Multi-bit Quantized and Binarized Networks with A Learnable
Symmetric Quantizer [1.9659095632676098]
リソース制約のあるデバイスやクラウドプラットフォームにそれらをデプロイするには、ディープニューラルネットワークの重み付けとアクティベーションの定量化が不可欠だ。
双対化は量子化の特別な場合であるが、この極端な場合はしばしばいくつかの訓練の困難をもたらす。
双対化の困難を克服するため,uniq と呼ばれる統一量子化フレームワークを開発した。
論文 参考訳(メタデータ) (2021-04-01T02:33:31Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。