論文の概要: Post-Training Quantization for Energy Efficient Realization of Deep
Neural Networks
- arxiv url: http://arxiv.org/abs/2210.07906v1
- Date: Fri, 14 Oct 2022 15:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 14:57:20.591828
- Title: Post-Training Quantization for Energy Efficient Realization of Deep
Neural Networks
- Title(参考訳): 深部ニューラルネットワークのエネルギー効率向上のためのポストトレーニング量子化
- Authors: Cecilia Latotzke, Batuhan Balim, and Tobias Gemmeke
- Abstract要約: エッジデバイス上で生成されたデータに近いディープニューラルネットワーク(DNN)をデプロイする際の最大の課題は、そのサイズ、すなわちメモリフットプリントと計算の複雑さである。
本稿では,再学習を必要とせず,学習後の量子化フローを提案する。
ImageNetのTop-1精度は2.2%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The biggest challenge for the deployment of Deep Neural Networks (DNNs) close
to the generated data on edge devices is their size, i.e., memory footprint and
computational complexity. Both are significantly reduced with quantization.
With the resulting lower word-length, the energy efficiency of DNNs increases
proportionally. However, lower word-length typically causes accuracy
degradation. To counteract this effect, the quantized DNN is retrained.
Unfortunately, training costs up to 5000x more energy than the inference of the
quantized DNN. To address this issue, we propose a post-training quantization
flow without the need for retraining. For this, we investigated different
quantization options. Furthermore, our analysis systematically assesses the
impact of reduced word-lengths of weights and activations revealing a clear
trend for the choice of word-length. Both aspects have not been systematically
investigated so far. Our results are independent of the depth of the DNNs and
apply to uniform quantization, allowing fast quantization of a given
pre-trained DNN. We excel state-of-the-art for 6 bit by 2.2% Top-1 accuracy for
ImageNet. Without retraining, our quantization to 8 bit surpasses
floating-point accuracy.
- Abstract(参考訳): エッジデバイス上で生成されたデータに近いディープニューラルネットワーク(DNN)をデプロイする際の最大の課題は、そのサイズ、すなわちメモリフットプリントと計算複雑性である。
どちらも量子化によって大幅に減少する。
結果として単語長が小さくなると、DNNのエネルギー効率は比例的に増加する。
しかし、単語長が低いと通常は精度が低下する。
この効果に対抗するために、量子化されたDNNを再訓練する。
残念ながら、トレーニングは量子化dnnの推論よりも最大5000倍のエネルギーを消費する。
この問題に対処するため,再トレーニングを必要とせず,後続の量子化フローを提案する。
そこで我々は,異なる量子化オプションについて検討した。
さらに,重みとアクティベーションの単語長の削減が,単語長の選択に明確な傾向を示す影響を体系的に評価した。
どちらの面もこれまで体系的に調査されていない。
我々の結果はDNNの深さとは独立であり、与えられた事前学習されたDNNの高速量子化を可能にする均一な量子化に適用できる。
ImageNetのTop-1精度は2.2%向上した。
再トレーニングなしでは、8ビットへの量子化は浮動小数点精度を上回る。
関連論文リスト
- Two Heads are Better Than One: Neural Networks Quantization with 2D Hilbert Curve-based Output Representation [3.4606942690643336]
本稿では,DNNの出力の冗長表現を用いた新しいDNN量子化手法を提案する。
このマッピングにより量子化誤差を低減できることを示す。
我々のアプローチはセグメンテーション、オブジェクト検出、キーポイント予測など他のタスクにも適用できる。
論文 参考訳(メタデータ) (2024-05-22T21:59:46Z) - Designing strong baselines for ternary neural network quantization
through support and mass equalization [7.971065005161565]
ディープニューラルネットワーク(DNN)は、コンピュータビジョンにおける幅広いアプリケーションにおいて、最高のパフォーマンスを提供する。
浮動小数点値を3次値に定量化することにより、この計算負担を劇的に低減することができる。
提案手法は, 様々なシナリオを用いて三次量子化の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-30T07:35:07Z) - QEBVerif: Quantization Error Bound Verification of Neural Networks [6.327780998441913]
量子化は、エッジデバイスにディープニューラルネットワーク(DNN)をデプロイするための有望なテクニックとして広く見なされている。
既存の検証方法は、個々のニューラルネットワーク(DNNまたはQNN)または部分量子化のための量子化エラーにフォーカスする。
本稿では、重みとアクティベーションテンソルの両方を量子化する量子化誤差境界検証手法QEBVerifを提案する。
論文 参考訳(メタデータ) (2022-12-06T06:34:38Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - ActNN: Reducing Training Memory Footprint via 2-Bit Activation
Compressed Training [68.63354877166756]
ActNNは、バック伝搬のためのランダムに量子化されたアクティベーションを格納するメモリ効率のトレーニングフレームワークである。
ActNNはアクティベーションのメモリフットプリントを12倍に削減し、6.6倍から14倍のバッチサイズでトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-04-29T05:50:54Z) - Filter Pre-Pruning for Improved Fine-tuning of Quantized Deep Neural
Networks [0.0]
本稿では,DNNの微調整を妨害するフィルタを除去するPruning for Quantization (PfQ)と呼ばれる新しいプルーニング手法を提案する。
良く知られたモデルとデータセットを用いた実験により,提案手法が類似したモデルサイズで高い性能を実現することを確認した。
論文 参考訳(メタデータ) (2020-11-13T04:12:54Z) - Subtensor Quantization for Mobilenets [5.735035463793008]
ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。
本稿では,量子化損失の根本原因について分析し,チャネル単位やトレーニング対応のアプローチに依存しない代替案を提案する。
我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の量子化8ビット推論トップ1の精度を評価する。
論文 参考訳(メタデータ) (2020-11-04T15:41:47Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Bit Error Robustness for Energy-Efficient DNN Accelerators [93.58572811484022]
本稿では、ロバストな固定点量子化、重み切り、ランダムビット誤り訓練(RandBET)の組み合わせにより、ランダムビット誤りに対するロバスト性を向上することを示す。
これは低電圧動作と低精度量子化の両方から高エネルギーの節約につながる。
論文 参考訳(メタデータ) (2020-06-24T18:23:10Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。