論文の概要: A Closer Look at Hardware-Friendly Weight Quantization
- arxiv url: http://arxiv.org/abs/2210.03671v1
- Date: Fri, 7 Oct 2022 16:25:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:46:05.952044
- Title: A Closer Look at Hardware-Friendly Weight Quantization
- Title(参考訳): ハードウェアにやさしい重量量子化
- Authors: Sungmin Bae, Piotr Zielinski, Satrajit Chatterjee
- Abstract要約: 重み量子化の文脈におけるハードウェアフレンドリな量子化手法の2つの主要なクラスを評価する。
実測値を用いたMobileNetV1とMobileNetV2の2つの手法について検討し,性能差の原因を特定する。
両手法の量子化性能を向上させるための様々な手法を提案する。
- 参考スコア(独自算出の注目度): 12.891210250935147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantizing a Deep Neural Network (DNN) model to be used on a custom
accelerator with efficient fixed-point hardware implementations, requires
satisfying many stringent hardware-friendly quantization constraints to train
the model. We evaluate the two main classes of hardware-friendly quantization
methods in the context of weight quantization: the traditional Mean Squared
Quantization Error (MSQE)-based methods and the more recent gradient-based
methods. We study the two methods on MobileNetV1 and MobileNetV2 using multiple
empirical metrics to identify the sources of performance differences between
the two classes, namely, sensitivity to outliers and convergence instability of
the quantizer scaling factor. Using those insights, we propose various
techniques to improve the performance of both quantization methods - they fix
the optimization instability issues present in the MSQE-based methods during
quantization of MobileNet models and allow us to improve validation performance
of the gradient-based methods by 4.0% and 3.3% for MobileNetV1 and MobileNetV2
on ImageNet respectively.
- Abstract(参考訳): Deep Neural Network(DNN)モデルを効率的な固定ポイントハードウェア実装でカスタムアクセラレータで使用するために量子化するには、モデルをトレーニングするために、厳密なハードウェアフレンドリな量子化制約の多くを満たす必要がある。
本稿では,従来の平均二乗量子化誤差法(MSQE)と近年の勾配法という,ハードウェアフレンドリな量子化手法の2つの主要なクラスを評価する。
本研究では,mobilenetv1 と mobilenetv2 の2つの手法を,複数の経験的指標を用いて検討した。
これらの知見を用いて,MobileNetモデルの量子化中にMSQEベースの手法で発生する最適化不安定性問題を修正し,画像Net上でのMobileNetV1とMobileNetV2に対して,勾配に基づく手法の検証性能を4.0%,3.3%向上させることができる。
関連論文リスト
- Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Bag of Tricks with Quantized Convolutional Neural Networks for image
classification [9.240992450548132]
深層ニューラルネットワークの学習後量子化のためのゴールドガイドラインを提案する。
提案手法の有効性を,ImageNetデータセット上でResNet50とMobileNetV2の2つの人気モデルを用いて評価した。
その結果,30%の空間幅を持つ量子化されたMobileNetV2が,等価な完全精度モデルの性能を実際に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-13T13:05:33Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - Standard Deviation-Based Quantization for Deep Neural Networks [17.495852096822894]
深層ニューラルネットワークの量子化は、推論コストを低減するための有望なアプローチである。
ネットワークの重みと活性化分布の知識を用いて量子化間隔(離散値)を学習する新しいフレームワークを提案する。
提案手法は,ネットワークのパラメータを同時に推定し,量子化過程におけるプルーニング比を柔軟に調整する。
論文 参考訳(メタデータ) (2022-02-24T23:33:47Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。