論文の概要: A Comprehensive Survey on Model Quantization for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2205.07877v2
- Date: Fri, 12 May 2023 16:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 16:29:36.814713
- Title: A Comprehensive Survey on Model Quantization for Deep Neural Networks
- Title(参考訳): 深層ニューラルネットワークのモデル量子化に関する包括的調査
- Authors: Babak Rokh, Ali Azarpeyvand, Alireza Khanteymoori
- Abstract要約: ディープニューラルネットワーク圧縮の重要なアプローチは、完全精度の値を低ビット幅に格納する量子化である。
量子化の概念を説明し、異なる視点からメソッドを分類する。
本稿では,量子化された深層ニューラルネットワークのトレーニングと,Straight-Through Estimatorを用いた評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in machine learning by deep neural networks are significant.
But using these networks has been accompanied by a huge number of parameters
for storage and computations that leads to an increase in the hardware cost and
posing challenges. Therefore, compression approaches have been proposed to
design efficient accelerators. One important approach for deep neural network
compression is quantization that full-precision values are stored in low
bit-width. In this way, in addition to memory saving, the operations will be
replaced by simple ones with low cost. Many methods are suggested for DNNs
Quantization in recent years, because of flexibility and influence in designing
efficient hardware. Therefore, an integrated report is essential for better
understanding, analysis, and comparison. In this paper, we provide a
comprehensive survey. We describe the quantization concepts and categorize the
methods from different perspectives. We discuss using the scale factor to match
the quantization levels with the distribution of the full-precision values and
describe the clustering-based methods. For the first time, we review the
training of a quantized deep neural network and using Straight-Through
Estimator comprehensively. Also, we describe the simplicity of operations in
quantized deep convolutional neural networks and explain the sensitivity of the
different layers in quantization. Finally, we discuss the evaluation of the
quantization methods and compare the accuracy of previous methods with various
bit-width for weights and activations on CIFAR-10 and the large-scale dataset,
ImageNet.
- Abstract(参考訳): ディープニューラルネットワークによる機械学習の最近の進歩は重要である。
しかし、これらのネットワークを使用すると、ストレージと計算のための膨大なパラメータが伴うため、ハードウェアコストが増加し、問題が発生します。
そのため,効率的な加速器設計のための圧縮手法が提案されている。
ディープニューラルネットワーク圧縮の1つの重要なアプローチは、完全精度の値を低ビット幅に格納する量子化である。
このようにして、メモリの節約に加えて、操作は低コストで単純な操作に置き換えられる。
近年,効率的なハードウェア設計における柔軟性と影響から,多くの手法が提案されている。
したがって、統合レポートは、より理解し、分析し、比較するために不可欠である。
本稿では,包括的調査を行う。
量子化の概念を説明し、異なる観点からメソッドを分類する。
本稿では,量子化レベルと全精度値の分布との一致をスケールファクターを用いて検討し,クラスタリングに基づく手法について述べる。
量子化されたディープニューラルネットワークのトレーニングを初めてレビューし、ストレートスルー推定器を包括的に活用した。
また、量子化深部畳み込みニューラルネットワークにおける演算の単純さを説明し、量子化における異なる層の感度を説明する。
最後に,CIFAR-10 と大規模データセット ImageNet の重み付けとアクティベーションのために,従来の手法と各種ビット幅を比較し,量子化手法の評価を行った。
関連論文リスト
- SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Learning Representations for CSI Adaptive Quantization and Feedback [51.14360605938647]
本稿では,周波数分割二重化システムにおける適応量子化とフィードバックの効率的な手法を提案する。
既存の研究は主に、CSI圧縮のためのオートエンコーダ(AE)ニューラルネットワークの実装に焦点を当てている。
1つはポストトレーニング量子化に基づくもので、もう1つはAEのトレーニング中にコードブックが見つかる方法である。
論文 参考訳(メタデータ) (2022-07-13T08:52:13Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network
Quantization Framework [39.43144643349916]
本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。
線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。
我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
論文 参考訳(メタデータ) (2020-09-16T04:24:18Z) - Optimal Quantization for Batch Normalization in Neural Network
Deployments and Beyond [18.14282813812512]
バッチ正規化(BN)が量子ニューラルネットワーク(QNN)に挑戦
本稿では、2つの浮動小数点のアフィン変換を共有量子化スケールで固定点演算に変換することによりBNを定量化する新しい方法を提案する。
提案手法は,CIFARおよびImageNetデータセット上の層レベルでの実験により検証される。
論文 参考訳(メタデータ) (2020-08-30T09:33:29Z) - AUSN: Approximately Uniform Quantization by Adaptively Superimposing
Non-uniform Distribution for Deep Neural Networks [0.7378164273177589]
既存の一様および非一様量子化法は、表現範囲と表現解像度の間に固有の矛盾を示す。
重みとアクティベーションを定量化する新しい量子化法を提案する。
鍵となる考え方は、複数の非一様量子化値、すなわち AUSN を適応的に重ね合わせることで、ユニフォーム量子化を近似することである。
論文 参考訳(メタデータ) (2020-07-08T05:10:53Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。