論文の概要: HAWQV3: Dyadic Neural Network Quantization
- arxiv url: http://arxiv.org/abs/2011.10680v3
- Date: Wed, 23 Jun 2021 07:49:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 06:06:01.767745
- Title: HAWQV3: Dyadic Neural Network Quantization
- Title(参考訳): HAWQV3: Dyadic Neural Network Quantization
- Authors: Zhewei Yao, Zhen Dong, Zhangcheng Zheng, Amir Gholami, Jiali Yu, Eric
Tan, Leyuan Wang, Qijing Huang, Yida Wang, Michael W. Mahoney, Kurt Keutzer
- Abstract要約: 現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
- 参考スコア(独自算出の注目度): 73.11579145354801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current low-precision quantization algorithms often have the hidden cost of
conversion back and forth from floating point to quantized integer values. This
hidden cost limits the latency improvement realized by quantizing Neural
Networks. To address this, we present HAWQV3, a novel mixed-precision
integer-only quantization framework. The contributions of HAWQV3 are the
following: (i) An integer-only inference where the entire computational graph
is performed only with integer multiplication, addition, and bit shifting,
without any floating point operations or even integer division; (ii) A novel
hardware-aware mixed-precision quantization method where the bit-precision is
calculated by solving an integer linear programming problem that balances the
trade-off between model perturbation and other constraints, e.g., memory
footprint and latency; (iii) Direct hardware deployment and open source
contribution for 4-bit uniform/mixed-precision quantization in TVM, achieving
an average speed up of $1.45\times$ for uniform 4-bit, as compared to uniform
8-bit for ResNet50 on T4 GPUs; and (iv) extensive evaluation of the proposed
methods on ResNet18/50 and InceptionV3, for various model compression levels
with/without mixed precision. For ResNet50, our INT8 quantization achieves an
accuracy of $77.58\%$, which is $2.68\%$ higher than prior integer-only work,
and our mixed-precision INT4/8 quantization can reduce INT8 latency by $23\%$
and still achieve $76.73\%$ accuracy. Our framework and the TVM implementation
have been open sourced.
- Abstract(参考訳): 現在の低精度量子化アルゴリズムは浮動小数点から量子化された整数値への変換の隠れたコストを持つことが多い。
この隠れたコストは、ニューラルネットワークの量子化によって実現されるレイテンシの改善を制限する。
そこで本研究では,新しい混合精度整数専用量子化フレームワークHAWQV3を提案する。
HAWQV3の貢献は以下のとおりである。
(i)浮動小数点演算や整数除算なしで、整数乗算、加算、ビットシフトのみで計算グラフ全体が実行される整数専用推論
2 モデル摂動とその他の制約(例えばメモリフットプリントと遅延)のトレードオフをバランスさせる整数線形計画問題の解法により、ビット精度を計算したハードウェア対応混合精度量子化法
3TVMにおける4ビットの均一/混合精度量子化のための直接ハードウェア展開とオープンソースコントリビューションで、T4 GPU上のResNet50の均一8ビットと比較して平均速度が1.45\times$に達する。
(iv)resnet18/50とinceptionv3の混合精度の異なるモデル圧縮レベルに対する提案手法の広範な評価
resnet50では、int8量子化は77.58\%$(以前の整数のみの仕事よりも2.68\%$高い)の精度を達成し、混合精度のint4/8量子化はint8のレイテンシを23\%$に削減し、それでも7.73\%の精度を達成します。
私たちのフレームワークとtvmの実装はオープンソースです。
関連論文リスト
- ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。
本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。
ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-18T22:01:55Z) - FLIQS: One-Shot Mixed-Precision Floating-Point and Integer Quantization Search [50.07268323597872]
本稿では,整数浮動小数点モデルと低精度浮動小数点モデルの両方において再学習を不要とする,最初のワンショット混合量子化探索を提案する。
整数モデルでは、ImageNet上のResNet-18の精度を1.31%、ResNet-50の精度を0.90%向上させる。
従来のFP8モデルと比較して,新しい混合精度浮動小数点探索を探索し,最大0.98%改善した。
論文 参考訳(メタデータ) (2023-08-07T04:17:19Z) - DyBit: Dynamic Bit-Precision Numbers for Efficient Quantized Neural
Network Inference [28.912023025671868]
この作業は、DyBitと呼ばれる可変長エンコーディングを持つ適応データ表現をターゲットにしている。
また,予測精度と高速化をトレードオフする混合精度加速器を備えたハードウェア対応量子化フレームワークを提案する。
実験の結果、DyBitによる推論精度は4ビット量子化の最先端よりも1.997%高いことがわかった。
論文 参考訳(メタデータ) (2023-02-24T08:46:01Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - F8Net: Fixed-Point 8-bit Only Multiplication for Network Quantization [47.403304754934155]
固定点8ビット乗算のみからなる新しい量子化フレームワークF8Netを提案する。
提案手法は,既存の量子化手法と比較して,同等かつ優れた性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T18:48:56Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Pareto-Optimal Quantized ResNet Is Mostly 4-bit [3.83996783171716]
我々はResNetをケーススタディとして、量子化が計算コスト品質トレードオフ曲線の推論に与える影響を調べる。
その結果、bfloat16 ResNetの各モデルには、低コストで高精度な量子化モデルがあることが示唆された。
我々は,4ビットResNet-50のImageNet上で,量子化を意識したトレーニングを行い,トップ1のeval精度77.09%を得た。
論文 参考訳(メタデータ) (2021-05-07T23:28:37Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。