論文の概要: Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2012.13762v1
- Date: Sat, 26 Dec 2020 15:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 02:24:39.006688
- Title: Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks
- Title(参考訳): 高精度低ビット幅深層ニューラルネットワークの直接量子化
- Authors: Tuan Hoang and Thanh-Toan Do and Tam V. Nguyen and Ngai-Man Cheung
- Abstract要約: 本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
- 参考スコア(独自算出の注目度): 73.29587731448345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes two novel techniques to train deep convolutional neural
networks with low bit-width weights and activations. First, to obtain low
bit-width weights, most existing methods obtain the quantized weights by
performing quantization on the full-precision network weights. However, this
approach would result in some mismatch: the gradient descent updates
full-precision weights, but it does not update the quantized weights. To
address this issue, we propose a novel method that enables {direct} updating of
quantized weights {with learnable quantization levels} to minimize the cost
function using gradient descent. Second, to obtain low bit-width activations,
existing works consider all channels equally. However, the activation
quantizers could be biased toward a few channels with high-variance. To address
this issue, we propose a method to take into account the quantization errors of
individual channels. With this approach, we can learn activation quantizers
that minimize the quantization errors in the majority of channels. Experimental
results demonstrate that our proposed method achieves state-of-the-art
performance on the image classification task, using AlexNet, ResNet and
MobileNetV2 architectures on CIFAR-100 and ImageNet datasets.
- Abstract(参考訳): 本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
しかし、このアプローチはいくつかのミスマッチをもたらす:勾配降下は全精度重みを更新するが、量子化された重みは更新しない。
この問題に対処するために,学習可能な量子化レベルを持つ量子化重みの{direct}更新を可能にし,勾配降下を用いたコスト関数を最小化する新しい手法を提案する。
第二に、ビット幅の低いアクティベーションを得るために、既存の研究は全てのチャネルを等しく考慮している。
しかし、活性化量子化器は高分散のいくつかのチャネルに偏りがある。
この問題に対処するために,個別チャネルの量子化誤差を考慮した手法を提案する。
このアプローチでは、多くのチャネルで量子化エラーを最小化するアクティベーション量子化子を学習できる。
実験により,提案手法は,CIFAR-100およびImageNetデータセット上のAlexNet,ResNet,MobileNetV2アーキテクチャを用いて,画像分類タスクにおける最先端性能を実現することを示す。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Standard Deviation-Based Quantization for Deep Neural Networks [17.495852096822894]
深層ニューラルネットワークの量子化は、推論コストを低減するための有望なアプローチである。
ネットワークの重みと活性化分布の知識を用いて量子化間隔(離散値)を学習する新しいフレームワークを提案する。
提案手法は,ネットワークのパラメータを同時に推定し,量子化過程におけるプルーニング比を柔軟に調整する。
論文 参考訳(メタデータ) (2022-02-24T23:33:47Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。