論文の概要: In-Hindsight Quantization Range Estimation for Quantized Training
- arxiv url: http://arxiv.org/abs/2105.04246v1
- Date: Mon, 10 May 2021 10:25:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 21:22:33.093838
- Title: In-Hindsight Quantization Range Estimation for Quantized Training
- Title(参考訳): 量子化トレーニングのための後方量子化範囲推定
- Authors: Marios Fournarakis, Markus Nagel
- Abstract要約: 従来の反復で推定した量子化範囲を用いて,現在を数値化する動的量子化手法であるin-hindsight range推定法を提案する。
今回のアプローチでは,ニューラルネットワークアクセラレータによる最小限のハードウェアサポートのみを必要としながら,勾配とアクティベーションの高速静的量子化を可能にする。
量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。
- 参考スコア(独自算出の注目度): 5.65658124285176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization techniques applied to the inference of deep neural networks have
enabled fast and efficient execution on resource-constraint devices. The
success of quantization during inference has motivated the academic community
to explore fully quantized training, i.e. quantizing back-propagation as well.
However, effective gradient quantization is still an open problem. Gradients
are unbounded and their distribution changes significantly during training,
which leads to the need for dynamic quantization. As we show, dynamic
quantization can lead to significant memory overhead and additional data
traffic slowing down training. We propose a simple alternative to dynamic
quantization, in-hindsight range estimation, that uses the quantization ranges
estimated on previous iterations to quantize the present. Our approach enables
fast static quantization of gradients and activations while requiring only
minimal hardware support from the neural network accelerator to keep track of
output statistics in an online fashion. It is intended as a drop-in replacement
for estimating quantization ranges and can be used in conjunction with other
advances in quantized training. We compare our method to existing methods for
range estimation from the quantized training literature and demonstrate its
effectiveness with a range of architectures, including MobileNetV2, on image
classification benchmarks (Tiny ImageNet & ImageNet).
- Abstract(参考訳): ディープニューラルネットワークの推論に適用される量子化技術により、リソース制約デバイス上での高速かつ効率的な実行が可能になった。
推論における量子化の成功は、完全に量子化されたトレーニング、すなわち、学術コミュニティを動機付けている。
バックプロパゲーションの定量化。
しかし、効果的な勾配量子化は依然として未解決の問題である。
勾配は非有界であり、トレーニング中に分布が大きく変化するため、動的量子化の必要性が生じる。
示すように、動的量子化はメモリオーバーヘッドを大幅に増加させ、トレーニングを遅くするデータトラフィックを増やします。
本稿では,前回の反復で推定された量子化範囲を用いて現在を量子化する,動的量子化の簡易な代替案を提案する。
今回のアプローチでは,勾配とアクティベーションの高速静的量子化を可能にしつつ,オンライン形式で出力統計を追跡するためにニューラルネットワークアクセラレータによる最小限のハードウェアサポートしか必要としない。
量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。
画像分類ベンチマーク (tiny imagenet & imagenet) において,本手法を数値化学習文献から推定する既存の手法と比較し,mobilenetv2を含む各種アーキテクチャの有効性を示す。
関連論文リスト
- SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - Recurrence of Optimum for Training Weight and Activation Quantized
Networks [4.103701929881022]
低精度の重みとアクティベーションを備えたディープラーニングモデルのトレーニングには、必要な最適化タスクが伴う。
ネットワーク量子化の性質を克服する方法を紹介します。
また,訓練用量子化深層ネットワークにおける重み進化の繰り返し現象の数値的証拠を示す。
論文 参考訳(メタデータ) (2020-12-10T09:14:43Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z) - Post-Training Piecewise Linear Quantization for Deep Neural Networks [13.717228230596167]
リソース制限されたデバイスへのディープニューラルネットワークのエネルギー効率向上において、量子化は重要な役割を果たす。
本稿では,長い尾を持つベル形状のテンソル値の正確な近似を実現するために,一方向線形量子化方式を提案する。
提案手法は,最先端のポストトレーニング量子化手法と比較して,画像分類,セマンティックセグメンテーション,オブジェクト検出においてわずかなオーバーヘッドで優れた性能を実現する。
論文 参考訳(メタデータ) (2020-01-31T23:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。