論文の概要: AutoQNN: An End-to-End Framework for Automatically Quantizing Neural
Networks
- arxiv url: http://arxiv.org/abs/2304.03782v1
- Date: Fri, 7 Apr 2023 11:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:38:31.442069
- Title: AutoQNN: An End-to-End Framework for Automatically Quantizing Neural
Networks
- Title(参考訳): autoqnn:ニューラルネットワークの自動定量化のためのエンドツーエンドフレームワーク
- Authors: Cheng Gong, Ye Lu, Surong Dai, Deng Qian, Chenkun Du, Tao Li
- Abstract要約: 我々は,人的負担を伴わずに,異なるスキームやビット幅を用いて異なるレイヤを自動的に定量化する,AutoQNNというエンドツーエンドフレームワークを提案する。
QPLは、量子化スキームのビット幅を再パラメータ化することで、混合精度ポリシーを学習する最初の方法である。
QAGは、任意のアーキテクチャを手動で介入することなく、対応する量子化アーキテクチャに変換するように設計されている。
- 参考スコア(独自算出の注目度): 6.495218751128902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring the expected quantizing scheme with suitable mixed-precision policy
is the key point to compress deep neural networks (DNNs) in high efficiency and
accuracy. This exploration implies heavy workloads for domain experts, and an
automatic compression method is needed. However, the huge search space of the
automatic method introduces plenty of computing budgets that make the automatic
process challenging to be applied in real scenarios. In this paper, we propose
an end-to-end framework named AutoQNN, for automatically quantizing different
layers utilizing different schemes and bitwidths without any human labor.
AutoQNN can seek desirable quantizing schemes and mixed-precision policies for
mainstream DNN models efficiently by involving three techniques: quantizing
scheme search (QSS), quantizing precision learning (QPL), and quantized
architecture generation (QAG). QSS introduces five quantizing schemes and
defines three new schemes as a candidate set for scheme search, and then uses
the differentiable neural architecture search (DNAS) algorithm to seek the
layer- or model-desired scheme from the set. QPL is the first method to learn
mixed-precision policies by reparameterizing the bitwidths of quantizing
schemes, to the best of our knowledge. QPL optimizes both classification loss
and precision loss of DNNs efficiently and obtains the relatively optimal
mixed-precision model within limited model size and memory footprint. QAG is
designed to convert arbitrary architectures into corresponding quantized ones
without manual intervention, to facilitate end-to-end neural network
quantization. We have implemented AutoQNN and integrated it into Keras.
Extensive experiments demonstrate that AutoQNN can consistently outperform
state-of-the-art quantization.
- Abstract(参考訳): 予測量子化スキームを適切な混合精度ポリシーで探索することは、ディープニューラルネットワーク(DNN)を高い効率と精度で圧縮する鍵となる。
この探索は、ドメインエキスパートにとって重いワークロードを意味し、自動圧縮方法が必要である。
しかし, 自動手法の膨大な検索スペースは, 実際のシナリオに適用することが困難となるような多くの計算予算を導入している。
本稿では,人的負担を伴わずに異なるスキームやビット幅を用いて異なるレイヤを自動的に定量化する,AutoQNNというエンドツーエンドフレームワークを提案する。
AutoQNNは、QSS(quantizing scheme search)、QPL(quantizing precision learning)、QAG(quantized architecture generation)の3つの手法を含むことで、主流DNNモデルの適切な量子化スキームと混合精度ポリシーを求めることができる。
QSSは5つの量子化スキームを導入し、3つの新しいスキームをスキーム探索の候補セットとして定義し、次に微分可能なニューラルアーキテクチャサーチ(DNAS)アルゴリズムを用いて、そのセットから層またはモデル要求スキームを求める。
QPLは、量子化スキームのビット幅を再パラメータ化して混合精度ポリシーを学習する最初の方法である。
QPLはDNNの分類損失と精度損失を効率的に最適化し、限られたモデルサイズとメモリフットプリント内で比較的最適な混合精度モデルを得る。
QAGは任意のアーキテクチャを手動で介入することなく対応する量子化アーキテクチャに変換し、エンドツーエンドのニューラルネットワーク量子化を容易にするように設計されている。
我々はAutoQNNを実装し、それをKerasに統合した。
大規模な実験により、AutoQNNは一貫して最先端の量子化に勝ることを示した。
関連論文リスト
- AdaQAT: Adaptive Bit-Width Quantization-Aware Training [0.873811641236639]
大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
論文 参考訳(メタデータ) (2024-04-22T09:23:56Z) - Optimizing Quantum Convolutional Neural Network Architectures for Arbitrary Data Dimension [2.9396076967931526]
量子畳み込みニューラルネットワーク(QCNN)は量子機械学習において有望なアプローチである。
量子リソースの割り当てを最適化しながら任意の入力データ次元を処理できるQCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-28T02:25:12Z) - Adaptive quantization with mixed-precision based on low-cost proxy [8.527626602939105]
本稿では,Low-Cost Proxy-Based Adaptive Mixed-Precision Model Quantization (LCPAQ) と呼ばれる新しいモデル量子化法を提案する。
ハードウェア対応モジュールはハードウェアの制約を考慮して設計され、適応型混合精度量子化モジュールは量子化感度を評価するために開発された。
ImageNetの実験では、提案したLCPAQが既存の混合精度モデルに匹敵するあるいは優れた量子化精度を達成している。
論文 参考訳(メタデータ) (2024-02-27T17:36:01Z) - QVIP: An ILP-based Formal Verification Approach for Quantized Neural
Networks [14.766917269393865]
量子化は、浮動小数点数に匹敵する精度でニューラルネットワークのサイズを減らすための有望な技術として登場した。
そこで本研究では,QNNに対する新しい,効率的な形式検証手法を提案する。
特に、QNNの検証問題を整数線形制約の解法に還元する符号化を初めて提案する。
論文 参考訳(メタデータ) (2022-12-10T03:00:29Z) - Q-SpiNN: A Framework for Quantizing Spiking Neural Networks [14.727296040550392]
精度を著しく低下させることなく、スパイキングニューラルネットワーク(SNN)のメモリフットプリントを削減するための顕著なテクニックは量子化である。
メモリ効率の高いSNNのための新しい量子化フレームワークQ-SpiNNを提案する。
教師なしネットワークでは、Q-SpiNNはメモリフットプリントを4倍削減し、MNISTデータセットのベースラインから1%以内の精度を維持する。
教師ネットワークでは、Q-SpiNNは、DVS-Gestureデータセットのベースラインから2%以内の精度を維持しながら、メモリを2倍削減する。
論文 参考訳(メタデータ) (2021-07-05T06:01:15Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Decentralizing Feature Extraction with Quantum Convolutional Neural
Network for Automatic Speech Recognition [101.69873988328808]
特徴抽出のための量子回路エンコーダからなる量子畳み込みニューラルネットワーク(QCNN)を構築した。
入力音声はまず、Mel-spectrogramを抽出するために量子コンピューティングサーバにアップストリームされる。
対応する畳み込み特徴は、ランダムパラメータを持つ量子回路アルゴリズムを用いて符号化される。
符号化された機能は、最終認識のためにローカルRNNモデルにダウンストリームされる。
論文 参考訳(メタデータ) (2020-10-26T03:36:01Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。