論文の概要: A Survey of Quantization Methods for Efficient Neural Network Inference
- arxiv url: http://arxiv.org/abs/2103.13630v1
- Date: Thu, 25 Mar 2021 06:57:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-26 13:39:44.338616
- Title: A Survey of Quantization Methods for Efficient Neural Network Inference
- Title(参考訳): 効率的なニューラルネットワーク推論のための量子化法の検討
- Authors: Amir Gholami, Sehoon Kim, Zhen Dong, Zhewei Yao, Michael W. Mahoney,
Kurt Keutzer
- Abstract要約: 量子化は、必要なビット数を最小限に抑えるために、固定された離散数の集合に連続実数値を分散する問題である。
近年、コンピュータビジョン、自然言語処理、関連分野でのニューラルネットワークモデルの顕著な性能のために最前線に達しています。
浮動小数点表現から4ビット以下の低精度固定整数値への移行は、メモリフットプリントとレイテンシを16倍削減する可能性を秘めている。
- 参考スコア(独自算出の注目度): 75.55159744950859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As soon as abstract mathematical computations were adapted to computation on
digital computers, the problem of efficient representation, manipulation, and
communication of the numerical values in those computations arose. Strongly
related to the problem of numerical representation is the problem of
quantization: in what manner should a set of continuous real-valued numbers be
distributed over a fixed discrete set of numbers to minimize the number of bits
required and also to maximize the accuracy of the attendant computations? This
perennial problem of quantization is particularly relevant whenever memory
and/or computational resources are severely restricted, and it has come to the
forefront in recent years due to the remarkable performance of Neural Network
models in computer vision, natural language processing, and related areas.
Moving from floating-point representations to low-precision fixed integer
values represented in four bits or less holds the potential to reduce the
memory footprint and latency by a factor of 16x; and, in fact, reductions of 4x
to 8x are often realized in practice in these applications. Thus, it is not
surprising that quantization has emerged recently as an important and very
active sub-area of research in the efficient implementation of computations
associated with Neural Networks. In this article, we survey approaches to the
problem of quantizing the numerical values in deep Neural Network computations,
covering the advantages/disadvantages of current methods. With this survey and
its organization, we hope to have presented a useful snapshot of the current
research in quantization for Neural Networks and to have given an intelligent
organization to ease the evaluation of future research in this area.
- Abstract(参考訳): デジタルコンピュータ上での計算に抽象数学的計算が適応されると、それらの計算における数値の効率的な表現、操作、およびコミュニケーションの問題が生じた。
数値表現の問題は量子化の問題である:どんな方法で連続実数値数の集合を固定離散数の集合上に分散させ、必要なビット数を最小化し、それに付随する計算の精度を最大化するべきか。
量子化のこの長年の問題は、メモリや計算資源が厳しく制限されるたびに特に重要であり、コンピュータビジョン、自然言語処理、および関連分野におけるニューラルネットワークモデルの顕著な性能により、近年は最前線に現れている。
浮動小数点表現から4ビット以下で表される低精度の整数値への移行は、メモリフットプリントとレイテンシを16倍に削減する可能性を秘めている。
このように量子化が近年、ニューラルネットワークに関連する計算の効率的な実装において重要かつ非常に活発な研究領域として出現したことは驚くにあたらない。
本稿では,ディープニューラルネット計算における数値の定量化の問題に対して,現在の手法の長所・短所を概説する。
この調査とその組織は、ニューラルネットワークの量子化における現在の研究の有用なスナップショットを提示し、この分野における将来の研究評価を容易にするインテリジェントな組織を提供したいと思っています。
関連論文リスト
- Constraint Guided Model Quantization of Neural Networks [0.0]
Constraint Guided Model Quantization (CGMQ) は、計算資源の上限を使い、ニューラルネットワークのパラメータのビット幅を削減する量子化対応トレーニングアルゴリズムである。
MNISTでは、CGMQの性能が最先端の量子化対応トレーニングアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2024-09-30T09:41:16Z) - Low Precision Quantization-aware Training in Spiking Neural Networks
with Differentiable Quantization Function [0.5046831208137847]
この研究は、量子化されたニューラルネットワークの最近の進歩とスパイクニューラルネットワークのギャップを埋めることを目的としている。
これは、シグモイド関数の線形結合として表される量子化関数の性能に関する広範な研究を示す。
提案した量子化関数は、4つの人気のあるベンチマーク上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-05-30T09:42:05Z) - Fast Exploration of the Impact of Precision Reduction on Spiking Neural
Networks [63.614519238823206]
ターゲットハードウェアがコンピューティングの端に達すると、スパイキングニューラルネットワーク(SNN)が実用的な選択となる。
我々は、近似誤差を伝播するそのようなモデルの能力を生かした探索手法を開発するために、インターヴァル算術(IA)モデルを用いる。
論文 参考訳(メタデータ) (2022-11-22T15:08:05Z) - Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。
これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文 参考訳(メタデータ) (2022-07-15T14:34:22Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Accelerating Neural Network Inference by Overflow Aware Quantization [16.673051600608535]
ディープニューラルネットワークの重計算を継承することで、その広範な応用が防げる。
トレーニング可能な適応的不動点表現を設計し,オーバーフローを考慮した量子化手法を提案する。
提案手法により,量子化損失を最小限に抑え,最適化された推論性能を得ることができる。
論文 参考訳(メタデータ) (2020-05-27T11:56:22Z) - Integer Quantization for Deep Learning Inference: Principles and
Empirical Evaluation [4.638764944415326]
量子化技術は、ディープニューラルネットワークのサイズを小さくし、推論レイテンシとスループットを改善する。
本稿では,高スループット整数演算パイプラインを持つプロセッサによる高速化に寄与する量子化技術に着目する。
本研究では,全ネットワークにおいて,浮動小数点ベースラインの1%以内の精度を維持できる8ビット量子化のワークフローを提案する。
論文 参考訳(メタデータ) (2020-04-20T19:59:22Z) - Binary Neural Networks: A Survey [126.67799882857656]
バイナリニューラルネットワークは、リソース制限されたデバイスにディープモデルをデプロイするための有望なテクニックとして機能する。
バイナライゼーションは必然的に深刻な情報損失を引き起こし、さらに悪いことに、その不連続性はディープネットワークの最適化に困難をもたらす。
本稿では,2項化を直接実施するネイティブソリューションと,量子化誤差の最小化,ネットワーク損失関数の改善,勾配誤差の低減といった手法を用いて,これらのアルゴリズムを探索する。
論文 参考訳(メタデータ) (2020-03-31T16:47:20Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。