論文の概要: Weight Equalizing Shift Scaler-Coupled Post-training Quantization
- arxiv url: http://arxiv.org/abs/2008.05767v1
- Date: Thu, 13 Aug 2020 09:19:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:18:52.285153
- Title: Weight Equalizing Shift Scaler-Coupled Post-training Quantization
- Title(参考訳): 重み等化シフトスケーラ結合後トレーニング量子化
- Authors: Jihun Oh, SangJeong Lee, Meejeong Park, Pooni Walagaurav and Kiseok
Kwon
- Abstract要約: トレーニング後、レイヤワイドの量子化が望ましいのは、再トレーニングが不要で、ハードウェアフレンドリーであるからである。
ニューラルネットワークモデルがチャネルあたりのウェイト範囲に大きな違いがある場合、精度の低下が発生します。
本研究では,4ビットのバイナリシフトでチャネルごとの重み範囲を再スケーリングする,新しい重み等化シフトスケーラを提案する。
- 参考スコア(独自算出の注目度): 0.5936318628878774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training, layer-wise quantization is preferable because it is free from
retraining and is hardware-friendly. Nevertheless, accuracy degradation has
occurred when a neural network model has a big difference of per-out-channel
weight ranges. In particular, the MobileNet family has a tragedy drop in top-1
accuracy from 70.60% ~ 71.87% to 0.1% on the ImageNet dataset after 8-bit
weight quantization. To mitigate this significant accuracy reduction, we
propose a new weight equalizing shift scaler, i.e. rescaling the weight range
per channel by a 4-bit binary shift, prior to a layer-wise quantization. To
recover the original output range, inverse binary shifting is efficiently fused
to the existing per-layer scale compounding in the fixed-computing
convolutional operator of the custom neural processing unit. The binary shift
is a key feature of our algorithm, which significantly improved the accuracy
performance without impeding the memory footprint. As a result, our proposed
method achieved a top-1 accuracy of 69.78% ~ 70.96% in MobileNets and showed
robust performance in varying network models and tasks, which is competitive to
channel-wise quantization results.
- Abstract(参考訳): トレーニング後の層別量子化は、再トレーニングが不要でハードウェアフレンドリであるため望ましい。
それでも、ニューラルネットワークモデルがチャネル毎の重み範囲に大きな差がある場合、精度が低下する。
特に、MobileNetファミリーは8ビットの重量量子化の後、ImageNetデータセット上で70.60%から71.87%から0.1%まで、トップ1の精度が悲劇的に低下している。
この顕著な精度低下を緩和するために、我々は新しい重み等化シフトスケーラ、すなわち4ビットのバイナリシフトでチャネルごとの重み範囲を4ビットの量子化に先立って再スケーリングすることを提案する。
元の出力範囲を回復するために、カスタムニューラルプロセッシングユニットの固定計算畳み込み演算子において、既存の層間スケールに逆バイナリシフトを効率よく融合させる。
バイナリシフトは,メモリフットプリントを損なうことなく精度を大幅に向上させるアルゴリズムの重要な特徴である。
その結果,提案手法はMobileNetsの69.78%~70.96%でトップ1の精度を達成し,チャネルワイド量子化結果と競合する様々なネットワークモデルやタスクにおいてロバストな性能を示した。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Post-training deep neural network pruning via layer-wise calibration [70.65691136625514]
本論文では,自動合成フラクタル画像に基づくコンピュータビジョンモデルに対するデータフリーな拡張を提案する。
実データを使用する場合は、トレーニング後の設定で65%の間隔で8ビットの精度でImageNet上のResNet50モデルを取得できます。
論文 参考訳(メタデータ) (2021-04-30T14:20:51Z) - Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。
非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。
2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文 参考訳(メタデータ) (2021-03-12T09:06:52Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Subtensor Quantization for Mobilenets [5.735035463793008]
ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。
本稿では,量子化損失の根本原因について分析し,チャネル単位やトレーニング対応のアプローチに依存しない代替案を提案する。
我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の量子化8ビット推論トップ1の精度を評価する。
論文 参考訳(メタデータ) (2020-11-04T15:41:47Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。