論文の概要: Efficient and Effective Methods for Mixed Precision Neural Network
Quantization for Faster, Energy-efficient Inference
- arxiv url: http://arxiv.org/abs/2301.13330v1
- Date: Mon, 30 Jan 2023 23:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 18:19:54.665338
- Title: Efficient and Effective Methods for Mixed Precision Neural Network
Quantization for Faster, Energy-efficient Inference
- Title(参考訳): 高速エネルギー効率推論のための混合精度ニューラルネットワーク量子化の効率的かつ効果的な方法
- Authors: Deepika Bablani, Jeffrey L. Mckinstry, Steven K. Esser, Rathinakumar
Appuswamy, Dharmendra S. Modha
- Abstract要約: ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。
ネットワークの各層は量子化に対する感度が異なる可能性があるため、混合精度量子化法は各層の精度を選択的に調整し、最小のタスク性能の低下を達成する。
レイヤの精度選択がタスク性能に与える影響を推定するために,2つの手法を導入する。
- 参考スコア(独自算出の注目度): 6.678796789672673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For effective and efficient deep neural network inference, it is desirable to
achieve state-of-the-art accuracy with the simplest networks requiring the
least computation, memory, and power. Quantizing networks to lower precision is
a powerful technique for simplifying networks. It is generally desirable to
quantize as aggressively as possible without incurring significant accuracy
degradation. As each layer of a network may have different sensitivity to
quantization, mixed precision quantization methods selectively tune the
precision of individual layers of a network to achieve a minimum drop in task
performance (e.g., accuracy). To estimate the impact of layer precision choice
on task performance two methods are introduced: i) Entropy Approximation Guided
Layer selection (EAGL) is fast and uses the entropy of the weight distribution,
and ii) Accuracy-aware Layer Precision Selection (ALPS) is straightforward and
relies on single epoch fine-tuning after layer precision reduction. Using EAGL
and ALPS for layer precision selection, full-precision accuracy is recovered
with a mix of 4-bit and 2-bit layers for ResNet-50 and ResNet-101
classification networks, demonstrating improved performance across the entire
accuracy-throughput frontier, and equivalent performance for the PSPNet
segmentation network in our own commensurate comparison over leading mixed
precision layer selection techniques, while requiring orders of magnitude less
compute time to reach a solution.
- Abstract(参考訳): 効率良く効率的なディープニューラルネットワーク推論には、最小の計算、メモリ、電力を必要とする最も単純なネットワークで最先端の精度を達成することが望ましい。
ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。
一般的には、高い精度の劣化を伴わずにできるだけ積極的に定量化することが望ましい。
ネットワークの各層は量子化に対する感度が異なる可能性があるため、混合精度量子化法は、ネットワークの個々の層の精度を選択的に調整し、タスク性能の最小値(例えば、精度)を達成する。
レイヤー精度選択がタスク性能に与える影響を推定するために,以下の2つの方法を導入する。
一 エントロピー近似誘導層選択(EAGL)が速く、重量分布のエントロピーを用いること。
二 精度認識層精密選択(alps)は、単純で、層精度低減後の単一のエポック微調整に依存する。
EAGLとALPSを用いて,ResNet-50およびResNet-101分類網の4ビット層と2ビット層の混合により完全精度の精度を回復し,精度・スループットのフロンティア全体の性能向上とPSPNetセグメンテーションネットワークの同等性能を,混合精度層選択技術よりも相似的に比較し,解に到達するのに要する処理時間を桁違いに削減した。
関連論文リスト
- Neural Precision Polarization: Simplifying Neural Network Inference with Dual-Level Precision [0.4124847249415279]
浮動小数点モデルはクラウドでトレーニングされ、エッジデバイスにダウンロードされる。
ネットワークの重みとアクティベーションは、NF4やINT8のようなエッジデバイスの望ましいレベルを満たすために直接量子化される。
本稿では,Watt MAC の効率と信頼性について,約464 TOPS のニューラル精度の偏極が可能であることを示す。
論文 参考訳(メタデータ) (2024-11-06T16:02:55Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Mixed-Precision Quantization with Cross-Layer Dependencies [6.338965603383983]
混合精度量子化(MPQ)は、様々なビット幅を層に割り当て、精度と効率のトレードオフを最適化する。
既存の手法は、異なる層における量子化誤差が独立に作用すると仮定することでMPQ問題を単純化する。
この仮定は、量子化された深層ニューラルネットワークの真の振舞いを反映していないことを示す。
論文 参考訳(メタデータ) (2023-07-11T15:56:00Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - RMSMP: A Novel Deep Neural Network Quantization Framework with Row-wise
Mixed Schemes and Multiple Precisions [43.27226390407956]
この研究は、Row-wise Mixed-Scheme and Multi-Precisionアプローチによる新しいディープニューラルネットワーク(DNN)量子化フレームワーク、すなわちRMSMPを提案する。
提案するRMSMPは、画像分類と自然言語処理(BERT)の分野でテストされている。
同等の精度で、最先端技術の中で最高の精度を実現する。
論文 参考訳(メタデータ) (2021-10-30T02:53:35Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Efficient Bitwidth Search for Practical Mixed Precision Neural Network [33.80117489791902]
ネットワーク量子化は、ディープニューラルネットワークを圧縮し加速する最も広く使われている方法の1つとなっている。
近年の研究では、異なる精度で異なる層からの重みと活性化を定量化し、全体的な性能を向上させることを提案する。
それぞれの層の重みと活性化に最適なビット幅(すなわち精度)を見つけることは困難である。
一般的なハードウェアプラットフォーム上で、異なる精度の重み付けとアクティベーションのためにどのように畳み込みを実行するかは、まだ不明である。
論文 参考訳(メタデータ) (2020-03-17T08:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。