論文の概要: VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference
- arxiv url: http://arxiv.org/abs/2102.04503v1
- Date: Mon, 8 Feb 2021 19:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:00:50.696999
- Title: VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference
- Title(参考訳): VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision Neural Network Inference
- Authors: Steve Dai, Rangharajan Venkatesan, Haoxing Ren, Brian Zimmer, William
J. Dally, Brucek Khailany
- Abstract要約: 量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
- 参考スコア(独自算出の注目度): 7.886868529510128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization enables efficient acceleration of deep neural networks by
reducing model memory footprint and exploiting low-cost integer math hardware
units. Quantization maps floating-point weights and activations in a trained
model to low-bitwidth integer values using scale factors. Excessive
quantization, reducing precision too aggressively, results in accuracy
degradation. When scale factors are shared at a coarse granularity across many
dimensions of each tensor, effective precision of individual elements within
the tensor are limited. To reduce quantization-related accuracy loss, we
propose using a separate scale factor for each small vector of ($\approx$16-64)
elements within a single dimension of a tensor. To achieve an efficient
hardware implementation, the per-vector scale factors can be implemented with
low-bitwidth integers when calibrated using a two-level quantization scheme. We
find that per-vector scaling consistently achieves better inference accuracy at
low precision compared to conventional scaling techniques for popular neural
networks without requiring retraining. We also modify a deep learning
accelerator hardware design to study the area and energy overheads of
per-vector scaling support. Our evaluation demonstrates that per-vector scaled
quantization with 4-bit weights and activations achieves 37% area saving and
24% energy saving while maintaining over 75% accuracy for ResNet50 on ImageNet.
4-bit weights and 8-bit activations achieve near-full-precision accuracy for
both BERT-base and BERT-large on SQuAD while reducing area by 26% compared to
an 8-bit baseline.
- Abstract(参考訳): 量子化は、モデルメモリフットプリントを削減し、低コストの整数演算ハードウェアユニットを活用することにより、ディープニューラルネットワークの効率的な加速を可能にする。
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度の精度の低下は、精度の低下をもたらす。
各テンソルの多くの次元にわたる粗粒度でスケール因子が共有されると、テンソル内の個々の要素の有効精度が制限される。
量子化関連精度損失を低減するために,テンソルの1次元内にある($16-64)要素の小さなベクトル毎に,別のスケール係数を用いることを提案する。
効率的なハードウェア実装を実現するために、2レベル量子化スキームを用いて校正する場合、ベクトルごとのスケール係数を低ビット幅整数で実装することができる。
一般的なニューラルネットワークでは,再訓練を必要とせず,従来のスケーリング手法と比較して,ベクトル単位のスケーリングが一貫して低精度で推論精度を向上できることが明らかになった。
また、深層学習アクセラレータハードウェアの設計を変更して、ベクトルごとのスケーリングサポートの領域とエネルギーオーバーヘッドを調査します。
評価の結果,4ビットの重みとアクティベーションによるベクトルごとの量子化は,ResNet50の75%以上の精度を維持しつつ,37%の省エネと24%の省エネを実現していることがわかった。
4ビットの重みと8ビットのアクティベーションは,SQuADではBERTベースとBERTラージの両方でほぼ精度が向上し,SQuADでは8ビットベースラインと比較して面積が26%削減された。
関連論文リスト
- Neural Precision Polarization: Simplifying Neural Network Inference with Dual-Level Precision [0.4124847249415279]
浮動小数点モデルはクラウドでトレーニングされ、エッジデバイスにダウンロードされる。
ネットワークの重みとアクティベーションは、NF4やINT8のようなエッジデバイスの望ましいレベルを満たすために直接量子化される。
本稿では,Watt MAC の効率と信頼性について,約464 TOPS のニューラル精度の偏極が可能であることを示す。
論文 参考訳(メタデータ) (2024-11-06T16:02:55Z) - Low-Precision Floating-Point for Efficient On-Board Deep Neural Network
Processing [0.9374652839580183]
本研究では,低精度(ミニ)浮動小数点演算と量子化学習法を組み合わせる方法について検討する。
その結果,6ビット浮動小数点量子化は重みとアクティベーションの両方において単一精度と競合できることがわかった。
初期のハードウェア研究は、そのような低精度浮動小数点設計の潜在的影響も確認した。
論文 参考訳(メタデータ) (2023-11-18T21:36:52Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Convolutional Neural Networks Quantization with Attention [1.0312968200748118]
二重段Squeeze-and-Threshold法(二重段ST)を提案する。
注意機構を使ってネットワークを定量化し、最先端の結果を得る。
論文 参考訳(メタデータ) (2022-09-30T08:48:31Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。