論文の概要: Overcoming Oscillations in Quantization-Aware Training
- arxiv url: http://arxiv.org/abs/2203.11086v1
- Date: Mon, 21 Mar 2022 16:07:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 18:38:20.650582
- Title: Overcoming Oscillations in Quantization-Aware Training
- Title(参考訳): 量子化アウェアトレーニングの展望
- Authors: Markus Nagel, Marios Fournarakis, Yelysei Bondarenko, Tijmen
Blankevoort
- Abstract要約: 量子化をシミュレートしたニューラルネットワークをトレーニングする場合、量子化された重みは、予想外の2つのグリッドポイント間で振動する。
その結果, バッチ正規化統計値の誤算により, 精度が著しく低下する可能性が示唆された。
トレーニング中の振動を克服する2つの新しいQATアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 18.28657022169428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When training neural networks with simulated quantization, we observe that
quantized weights can, rather unexpectedly, oscillate between two grid-points.
The importance of this effect and its impact on quantization-aware training are
not well-understood or investigated in literature. In this paper, we delve
deeper into the phenomenon of weight oscillations and show that it can lead to
a significant accuracy degradation due to wrongly estimated batch-normalization
statistics during inference and increased noise during training. These effects
are particularly pronounced in low-bit ($\leq$ 4-bits) quantization of
efficient networks with depth-wise separable layers, such as MobileNets and
EfficientNets. In our analysis we investigate several previously proposed
quantization-aware training (QAT) algorithms and show that most of these are
unable to overcome oscillations. Finally, we propose two novel QAT algorithms
to overcome oscillations during training: oscillation dampening and iterative
weight freezing. We demonstrate that our algorithms achieve state-of-the-art
accuracy for low-bit (3 & 4 bits) weight and activation quantization of
efficient architectures, such as MobileNetV2, MobileNetV3, and EfficentNet-lite
on ImageNet.
- Abstract(参考訳): 量子化をシミュレーションしたニューラルネットワークをトレーニングする場合、量子化重みは、むしろ予期しないほど、2つの格子点の間を振動できる。
この効果の重要性と量子化学習への影響は、文献ではよく理解されていない。
本稿では,重み振動の現象を深く掘り下げ,推論中のバッチ正規化統計の誤推定とトレーニング中のノイズの増加により,精度が著しく低下することを示す。
これらの効果は特に、MobileNetsやEfficientNetsのような深度的に分離可能なレイヤを持つ効率的なネットワークの低ビット(4ビット)量子化において顕著である。
本稿では,従来提案されていた量子化対応トレーニング(QAT)アルゴリズムについて検討し,その多くが振動を克服できないことを示す。
最後に,トレーニング中の振動を克服する2つの新しいQATアルゴリズムを提案する。
提案アルゴリズムは,MobileNetV2,MobileNetV3,EfficentNet-liteなどの効率的なアーキテクチャの,低ビット(3ビットと4ビット)の重み付けとアクティベーション量子化を実現する。
関連論文リスト
- SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Designing strong baselines for ternary neural network quantization
through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-30T07:35:07Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Recurrence of Optimum for Training Weight and Activation Quantized
Networks [4.103701929881022]
低精度の重みとアクティベーションを備えたディープラーニングモデルのトレーニングには、必要な最適化タスクが伴う。
ネットワーク量子化の性質を克服する方法を紹介します。
また,訓練用量子化深層ネットワークにおける重み進化の繰り返し現象の数値的証拠を示す。
論文 参考訳(メタデータ) (2020-12-10T09:14:43Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。