論文の概要: Accelerating Neural Network Inference by Overflow Aware Quantization
- arxiv url: http://arxiv.org/abs/2005.13297v1
- Date: Wed, 27 May 2020 11:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 08:20:23.441328
- Title: Accelerating Neural Network Inference by Overflow Aware Quantization
- Title(参考訳): オーバーフローアウェア量子化によるニューラルネットワークの高速化
- Authors: Hongwei Xie, Shuo Zhang, Huanghao Ding, Yafei Song, Baitao Shao,
Conggang Hu, Ling Cai and Mingyang Li
- Abstract要約: ディープニューラルネットワークの重計算を継承することで、その広範な応用が防げる。
トレーニング可能な適応的不動点表現を設計し,オーバーフローを考慮した量子化手法を提案する。
提案手法により,量子化損失を最小限に抑え,最適化された推論性能を得ることができる。
- 参考スコア(独自算出の注目度): 16.673051600608535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The inherent heavy computation of deep neural networks prevents their
widespread applications. A widely used method for accelerating model inference
is quantization, by replacing the input operands of a network using fixed-point
values. Then the majority of computation costs focus on the integer matrix
multiplication accumulation. In fact, high-bit accumulator leads to partially
wasted computation and low-bit one typically suffers from numerical overflow.
To address this problem, we propose an overflow aware quantization method by
designing trainable adaptive fixed-point representation, to optimize the number
of bits for each input tensor while prohibiting numeric overflow during the
computation. With the proposed method, we are able to fully utilize the
computing power to minimize the quantization loss and obtain optimized
inference performance. To verify the effectiveness of our method, we conduct
image classification, object detection, and semantic segmentation tasks on
ImageNet, Pascal VOC, and COCO datasets, respectively. Experimental results
demonstrate that the proposed method can achieve comparable performance with
state-of-the-art quantization methods while accelerating the inference process
by about 2 times.
- Abstract(参考訳): ディープニューラルネットワークの本質的に重い計算は、その広範な応用を妨げる。
モデル推論を高速化するための広く用いられる方法は、固定点値を用いてネットワークの入力オペランドを置き換えることで量子化である。
その後、計算コストの大半は整数行列乗算の累積に集中する。
実際、高ビットアキュムレータは部分的に無駄な計算をし、低ビットアキュムレータは通常数値オーバーフローに悩まされる。
そこで本研究では,各入力テンソルに対するビット数を最適化し,計算中に数値オーバーフローを禁止し,学習可能な適応不動点表現を設計できるオーバーフロー対応量子化手法を提案する。
提案手法では,量子化損失を最小化するために計算能力を十分に活用し,最適化された推論性能を得ることができる。
提案手法の有効性を検証するため,ImageNet,Pascal VOC,COCOデータセット上で画像分類,オブジェクト検出,セマンティックセグメンテーションタスクを行う。
実験により,提案手法は推定過程を約2倍に加速しながら,最先端の量子化法と同等の性能を達成できることを示した。
関連論文リスト
- Towards Efficient Verification of Quantized Neural Networks [9.352320240912109]
量子化は、深層ニューラルネットワークモデルにおける浮動小数点演算を整数演算に置き換える。
本研究では,勾配に基づく探索手法と有界伝播手法を用いて,効率を向上できることを示す。
論文 参考訳(メタデータ) (2023-12-20T00:43:13Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Quantized Proximal Averaging Network for Analysis Sparse Coding [23.080395291046408]
反復アルゴリズムをトレーニング可能なネットワークに展開し,量子化前にスパーシティの学習を容易にする。
圧縮画像回復と磁気共鳴画像再構成への応用を実証する。
論文 参考訳(メタデータ) (2021-05-13T12:05:35Z) - A Survey of Quantization Methods for Efficient Neural Network Inference [75.55159744950859]
量子化は、必要なビット数を最小限に抑えるために、固定された離散数の集合に連続実数値を分散する問題である。
近年、コンピュータビジョン、自然言語処理、関連分野でのニューラルネットワークモデルの顕著な性能のために最前線に達しています。
浮動小数点表現から4ビット以下の低精度固定整数値への移行は、メモリフットプリントとレイテンシを16倍削減する可能性を秘めている。
論文 参考訳(メタデータ) (2021-03-25T06:57:11Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - WrapNet: Neural Net Inference with Ultra-Low-Resolution Arithmetic [57.07483440807549]
ニューラルネットワークをアキュムレータの低分解能(8ビット)加算に適応させ,32ビットのアキュムレータに匹敵する分類精度を実現する手法を提案する。
ソフトウェアプラットフォームとハードウェアプラットフォームの両方において、我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-07-26T23:18:38Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Dithered backprop: A sparse and quantized backpropagation algorithm for
more efficient deep neural network training [18.27946970159625]
ディザド・バックプロップと名付けたバックプロップの計算コストを削減する手法を提案する。
本手法は,8ビットまでのトレーニングのビット精度を低下させる,最先端のトレーニング手法と完全互換であることを示す。
論文 参考訳(メタデータ) (2020-04-09T17:59:26Z) - Post-Training Piecewise Linear Quantization for Deep Neural Networks [13.717228230596167]
リソース制限されたデバイスへのディープニューラルネットワークのエネルギー効率向上において、量子化は重要な役割を果たす。
本稿では,長い尾を持つベル形状のテンソル値の正確な近似を実現するために,一方向線形量子化方式を提案する。
提案手法は,最先端のポストトレーニング量子化手法と比較して,画像分類,セマンティックセグメンテーション,オブジェクト検出においてわずかなオーバーヘッドで優れた性能を実現する。
論文 参考訳(メタデータ) (2020-01-31T23:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。