論文の概要: Pareto-Optimal Quantized ResNet Is Mostly 4-bit
- arxiv url: http://arxiv.org/abs/2105.03536v1
- Date: Fri, 7 May 2021 23:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:14:09.257607
- Title: Pareto-Optimal Quantized ResNet Is Mostly 4-bit
- Title(参考訳): Pareto-OptimalのResNetは、ほぼ4ビット
- Authors: AmirAli Abdolrashidi, Lisa Wang, Shivani Agrawal, Jonathan Malmaud,
Oleg Rybakov, Chas Leichner, Lukasz Lew
- Abstract要約: 我々はResNetをケーススタディとして、量子化が計算コスト品質トレードオフ曲線の推論に与える影響を調べる。
その結果、bfloat16 ResNetの各モデルには、低コストで高精度な量子化モデルがあることが示唆された。
我々は,4ビットResNet-50のImageNet上で,量子化を意識したトレーニングを行い,トップ1のeval精度77.09%を得た。
- 参考スコア(独自算出の注目度): 3.83996783171716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization has become a popular technique to compress neural networks and
reduce compute cost, but most prior work focuses on studying quantization
without changing the network size. Many real-world applications of neural
networks have compute cost and memory budgets, which can be traded off with
model quality by changing the number of parameters. In this work, we use ResNet
as a case study to systematically investigate the effects of quantization on
inference compute cost-quality tradeoff curves. Our results suggest that for
each bfloat16 ResNet model, there are quantized models with lower cost and
higher accuracy; in other words, the bfloat16 compute cost-quality tradeoff
curve is Pareto-dominated by the 4-bit and 8-bit curves, with models primarily
quantized to 4-bit yielding the best Pareto curve. Furthermore, we achieve
state-of-the-art results on ImageNet for 4-bit ResNet-50 with
quantization-aware training, obtaining a top-1 eval accuracy of 77.09%. We
demonstrate the regularizing effect of quantization by measuring the
generalization gap. The quantization method we used is optimized for
practicality: It requires little tuning and is designed with hardware
capabilities in mind. Our work motivates further research into optimal numeric
formats for quantization, as well as the development of machine learning
accelerators supporting these formats. As part of this work, we contribute a
quantization library written in JAX, which is open-sourced at
https://github.com/google-research/google-research/tree/master/aqt.
- Abstract(参考訳): 量子化はニューラルネットワークを圧縮し計算コストを下げるための一般的な技術となっているが、以前の研究はネットワークサイズを変えることなく量子化を研究することに集中していた。
ニューラルネットワークの現実世界のアプリケーションの多くは、計算コストとメモリ予算を持ち、パラメータの数を変更することでモデル品質と引き換えることができる。
本研究ではResNetをケーススタディとして,計算コスト品質のトレードオフ曲線に対する量子化の効果を体系的に検討する。
すなわち、bfloat16計算コスト品質のトレードオフ曲線は4ビットと8ビットの曲線によってパレートされ、モデルは主に4ビットに量子化され、最も良いパレート曲線が得られる。
さらに,4ビットResNet-50のImageNet上で,量子化学習を行い,トップ1のeval精度77.09%を得る。
一般化ギャップの測定により量子化の正則化効果を示す。
私たちが使った量子化方法は実用性のために最適化されています。
我々の研究は、量子化のための最適な数値形式の研究と、これらのフォーマットをサポートする機械学習アクセラレータの開発を動機付けている。
そのライブラリはhttps://github.com/google-research/google-research/tree/master/aqtでオープンソース化されています。
関連論文リスト
- ISQuant: apply squant to the real deployment [0.0]
量子化と復号化の組み合わせがモデルトレーニングに使われている理由を分析する。
8ビットモデルをデプロイするためのソリューションとしてISQuantを提案する。
論文 参考訳(メタデータ) (2024-07-05T15:10:05Z) - CEG4N: Counter-Example Guided Neural Network Quantization Refinement [2.722899166098862]
我々は,カウンタ・サンプル・ガイド付きニューラルネットワーク量子化リファインメント(CEG4N)を提案する。
この手法は探索に基づく量子化と等価検証を組み合わせたものである。
最先端技術よりも最大72%精度のモデルを作成します。
論文 参考訳(メタデータ) (2022-07-09T09:25:45Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Subtensor Quantization for Mobilenets [5.735035463793008]
ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。
本稿では,量子化損失の根本原因について分析し,チャネル単位やトレーニング対応のアプローチに依存しない代替案を提案する。
我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の量子化8ビット推論トップ1の精度を評価する。
論文 参考訳(メタデータ) (2020-11-04T15:41:47Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。