論文の概要: Integer Quantization for Deep Learning Inference: Principles and
Empirical Evaluation
- arxiv url: http://arxiv.org/abs/2004.09602v1
- Date: Mon, 20 Apr 2020 19:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 18:03:21.519840
- Title: Integer Quantization for Deep Learning Inference: Principles and
Empirical Evaluation
- Title(参考訳): ディープラーニング推論のための整数量子化:原理と経験的評価
- Authors: Hao Wu, Patrick Judd, Xiaojie Zhang, Mikhail Isaev, Paulius
Micikevicius
- Abstract要約: 量子化技術は、ディープニューラルネットワークのサイズを小さくし、推論レイテンシとスループットを改善する。
本稿では,高スループット整数演算パイプラインを持つプロセッサによる高速化に寄与する量子化技術に着目する。
本研究では,全ネットワークにおいて,浮動小数点ベースラインの1%以内の精度を維持できる8ビット量子化のワークフローを提案する。
- 参考スコア(独自算出の注目度): 4.638764944415326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization techniques can reduce the size of Deep Neural Networks and
improve inference latency and throughput by taking advantage of high throughput
integer instructions. In this paper we review the mathematical aspects of
quantization parameters and evaluate their choices on a wide range of neural
network models for different application domains, including vision, speech, and
language. We focus on quantization techniques that are amenable to acceleration
by processors with high-throughput integer math pipelines. We also present a
workflow for 8-bit quantization that is able to maintain accuracy within 1% of
the floating-point baseline on all networks studied, including models that are
more difficult to quantize, such as MobileNets and BERT-large.
- Abstract(参考訳): 量子化技術は、Deep Neural Networksのサイズを小さくし、高いスループットの整数命令を活用することにより、推論レイテンシとスループットを改善する。
本稿では、量子化パラメータの数学的側面を概観し、視覚、音声、言語を含む様々なアプリケーション領域に対する幅広いニューラルネットワークモデルにおけるそれらの選択を評価する。
我々は,高スループット整数計算パイプラインを用いたプロセッサによる高速化に適した量子化手法に注目する。
また,MobileNetsやBERT-largeなど,より量子化が難しいモデルを含む,すべてのネットワークにおいて,浮動小数点ベースラインの1%以内の精度を維持する8ビット量子化のワークフローを提案する。
関連論文リスト
- Towards Efficient Verification of Quantized Neural Networks [9.352320240912109]
量子化は、深層ニューラルネットワークモデルにおける浮動小数点演算を整数演算に置き換える。
本研究では,勾配に基づく探索手法と有界伝播手法を用いて,効率を向上できることを示す。
論文 参考訳(メタデータ) (2023-12-20T00:43:13Z) - Scaled Quantization for the Vision Transformer [0.0]
少数のビットを使用した量子化は、ディープニューラルネットワークにおけるレイテンシとメモリ使用量の削減を約束している。
本稿では、中間浮動小数点演算を必要とせずに、視覚変換器ネットワークの完全整数量子化のためのロバストな手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T18:31:21Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - A Survey of Quantization Methods for Efficient Neural Network Inference [75.55159744950859]
量子化は、必要なビット数を最小限に抑えるために、固定された離散数の集合に連続実数値を分散する問題である。
近年、コンピュータビジョン、自然言語処理、関連分野でのニューラルネットワークモデルの顕著な性能のために最前線に達しています。
浮動小数点表現から4ビット以下の低精度固定整数値への移行は、メモリフットプリントとレイテンシを16倍削減する可能性を秘めている。
論文 参考訳(メタデータ) (2021-03-25T06:57:11Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - On the quantization of recurrent neural networks [9.549757800469196]
ニューラルネットワークの量子化は、標準ニューラルネットワーク公式の高精度計算の近似として定義することができる。
本稿では,Long Short-Term Memory (LSTM) ニューラルネットワークトポロジに対する整数のみの量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-01-14T04:25:08Z) - Subtensor Quantization for Mobilenets [5.735035463793008]
ディープニューラルネットワーク(DNN)の量子化により、開発者はより少ないメモリとより効率的な低消費電力推論でモデルをデプロイできるようになった。
本稿では,量子化損失の根本原因について分析し,チャネル単位やトレーニング対応のアプローチに依存しない代替案を提案する。
我々は、ImageNetデータセット上の画像分類タスクと、浮動小数点バージョンの0.7%以内で、トレーニング後の量子化8ビット推論トップ1の精度を評価する。
論文 参考訳(メタデータ) (2020-11-04T15:41:47Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。