論文の概要: DNA-TEQ: An Adaptive Exponential Quantization of Tensors for DNN
Inference
- arxiv url: http://arxiv.org/abs/2306.16430v2
- Date: Wed, 22 Nov 2023 15:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 18:53:24.968494
- Title: DNA-TEQ: An Adaptive Exponential Quantization of Tensors for DNN
Inference
- Title(参考訳): DNA-TEQ:DNN推論のためのテンソルの適応指数量子化
- Authors: Bahareh Khabbazan, Marc Riera, Antonio Gonz\'alez
- Abstract要約: 量子化は、ストレージと計算の複雑さを減らすためにディープニューラルネットワーク(DNN)で一般的に使用される。
そこで本研究では,DNNテンソルを指数関数的に定量化するDNA-TEQを提案する。
- 参考スコア(独自算出の注目度): 0.2724035499453557
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Quantization is commonly used in Deep Neural Networks (DNNs) to reduce the
storage and computational complexity by decreasing the arithmetical precision
of activations and weights, a.k.a. tensors. Efficient hardware architectures
employ linear quantization to enable the deployment of recent DNNs onto
embedded systems and mobile devices. However, linear uniform quantization
cannot usually reduce the numerical precision to less than 8 bits without
sacrificing high performance in terms of model accuracy. The performance loss
is due to the fact that tensors do not follow uniform distributions. In this
paper, we show that a significant amount of tensors fit into an exponential
distribution. Then, we propose DNA-TEQ to exponentially quantize DNN tensors
with an adaptive scheme that achieves the best trade-off between numerical
precision and accuracy loss. The experimental results show that DNA-TEQ
provides a much lower quantization bit-width compared to previous proposals,
resulting in an average compression ratio of 40% over the linear INT8 baseline,
with negligible accuracy loss and without retraining the DNNs. Besides, DNA-TEQ
leads the way in performing dot-product operations in the exponential domain,
which saves 66% of energy consumption on average for a set of widely used DNNs.
- Abstract(参考訳): 量子化はディープニューラルネットワーク(DNN)において、アクティベーションと重みの算術的精度、すなわちテンソルを小さくすることで、記憶と計算の複雑さを減らすために一般的に用いられる。
効率的なハードウェアアーキテクチャでは、最近のDNNを組み込みシステムやモバイルデバイスに展開するために線形量子化を用いる。
しかし、線形均一量子化はモデル精度の点で高い性能を犠牲にすることなく、通常8ビット未満に数値精度を下げることはできない。
パフォーマンスの損失はテンソルが一様分布に従わないためである。
本稿では,かなりの量のテンソルが指数分布に適合することを示す。
そこで我々は,DNNテンソルを指数関数的に定量化するDNA-TEQを提案する。
実験の結果,DNA-TEQの量子化ビット幅は従来の提案よりもはるかに小さく,平均圧縮比は線形INT8ベースラインよりも40%も小さく,精度の低下は無視でき,DNNを再トレーニングすることができないことがわかった。
さらに、DNA-TEQは指数領域でのドット生成操作を誘導し、広く使用されているDNNのセットで平均して66%のエネルギー消費を節約する。
関連論文リスト
- Towards Cheaper Inference in Deep Networks with Lower Bit-Width
Accumulators [25.100092698906437]
現在のハードウェアは依然として高精度なコア操作に依存している。
これは、これまでのところ、低精度のアキュムレータの使用が性能を著しく低下させたためである。
本稿では,12ドル(約1万2000円)の安価なアキュムレータを初めて活用するために,高品質DNNの訓練と微調整を行うための簡単な方法を提案する。
論文 参考訳(メタデータ) (2024-01-25T11:46:01Z) - Guaranteed Approximation Bounds for Mixed-Precision Neural Operators [83.64404557466528]
我々は、ニューラル演算子学習が本質的に近似誤差を誘導する直感の上に構築する。
提案手法では,GPUメモリ使用量を最大50%削減し,スループットを58%向上する。
論文 参考訳(メタデータ) (2023-07-27T17:42:06Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - QEBVerif: Quantization Error Bound Verification of Neural Networks [6.327780998441913]
量子化は、エッジデバイスにディープニューラルネットワーク(DNN)をデプロイするための有望なテクニックとして広く見なされている。
既存の検証方法は、個々のニューラルネットワーク(DNNまたはQNN)または部分量子化のための量子化エラーにフォーカスする。
本稿では、重みとアクティベーションテンソルの両方を量子化する量子化誤差境界検証手法QEBVerifを提案する。
論文 参考訳(メタデータ) (2022-12-06T06:34:38Z) - Post-Training Quantization for Energy Efficient Realization of Deep
Neural Networks [0.0]
エッジデバイス上で生成されたデータに近いディープニューラルネットワーク(DNN)をデプロイする際の最大の課題は、そのサイズ、すなわちメモリフットプリントと計算の複雑さである。
本稿では,再学習を必要とせず,学習後の量子化フローを提案する。
ImageNetのTop-1精度は2.2%向上した。
論文 参考訳(メタデータ) (2022-10-14T15:43:57Z) - Low-Precision Training in Logarithmic Number System using Multiplicative
Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。
エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。
対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文 参考訳(メタデータ) (2021-06-26T00:32:17Z) - Filter Pre-Pruning for Improved Fine-tuning of Quantized Deep Neural
Networks [0.0]
本稿では,DNNの微調整を妨害するフィルタを除去するPruning for Quantization (PfQ)と呼ばれる新しいプルーニング手法を提案する。
良く知られたモデルとデータセットを用いた実験により,提案手法が類似したモデルサイズで高い性能を実現することを確認した。
論文 参考訳(メタデータ) (2020-11-13T04:12:54Z) - Block-term Tensor Neural Networks [29.442026567710435]
ブロック終端テンソル層(BT層)は,CNNやRNNなどのニューラルネットワークモデルに容易に適用可能であることを示す。
CNNとRNNのBT層は、元のDNNの表現力を維持したり改善したりしながら、パラメータ数に対して非常に大きな圧縮比を達成することができる。
論文 参考訳(メタデータ) (2020-10-10T09:58:43Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。