論文の概要: Class-based Quantization for Neural Networks
- arxiv url: http://arxiv.org/abs/2211.14928v1
- Date: Sun, 27 Nov 2022 20:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 19:34:11.759102
- Title: Class-based Quantization for Neural Networks
- Title(参考訳): ニューラルネットワークのためのクラスベース量子化
- Authors: Wenhao Sun, Grace Li Zhang, Huaxi Gu, Bing Li, Ulf Schlichtmann
- Abstract要約: ディープニューラルネットワーク(DNN)では、大量の重みと乗算および累積(MAC)演算がある。
DNNにおける各フィルタやニューロンの最小量子化ビット数を決定するためのクラスベース量子化法を提案する。
実験により,提案手法は低ビット幅量子化で推定精度を維持することができることを示した。
- 参考スコア(独自算出の注目度): 6.6707634590249265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep neural networks (DNNs), there are a huge number of weights and
multiply-and-accumulate (MAC) operations. Accordingly, it is challenging to
apply DNNs on resource-constrained platforms, e.g., mobile phones. Quantization
is a method to reduce the size and the computational complexity of DNNs.
Existing quantization methods either require hardware overhead to achieve a
non-uniform quantization or focus on model-wise and layer-wise uniform
quantization, which are not as fine-grained as filter-wise quantization. In
this paper, we propose a class-based quantization method to determine the
minimum number of quantization bits for each filter or neuron in DNNs
individually. In the proposed method, the importance score of each filter or
neuron with respect to the number of classes in the dataset is first evaluated.
The larger the score is, the more important the filter or neuron is and thus
the larger the number of quantization bits should be. Afterwards, a search
algorithm is adopted to exploit the different importance of filters and neurons
to determine the number of quantization bits of each filter or neuron.
Experimental results demonstrate that the proposed method can maintain the
inference accuracy with low bit-width quantization. Given the same number of
quantization bits, the proposed method can also achieve a better inference
accuracy than the existing methods.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)では、大量の重みと乗算および累積(MAC)演算がある。
したがって、DNNを携帯電話などのリソース制約のあるプラットフォームに適用することは困難である。
量子化は、DNNのサイズと計算複雑性を減らす方法である。
既存の量子化法では、一様でない量子化を達成するためにハードウェアのオーバーヘッドを必要とするか、モデルワイドと層ワイドの均一な量子化に焦点を当てる。
本稿では,DNNにおける各フィルタやニューロンの最小量子化ビット数を個別に決定するクラスベース量子化法を提案する。
提案手法では、データセット内のクラス数に対する各フィルタまたはニューロンの重要性スコアをまず評価する。
スコアが大きくなるほど、フィルタやニューロンがより重要になり、量子化ビットの数が増える。
その後、フィルタとニューロンの異なる重要性を利用して、各フィルタまたはニューロンの量子化ビット数を決定する探索アルゴリズムが採用される。
実験の結果,提案手法はビット幅の少ない量子化で精度を維持できることがわかった。
同じ数の量子化ビットが与えられると、提案手法は既存の手法よりも優れた推論精度を達成することができる。
関連論文リスト
- SQUAT: Stateful Quantization-Aware Training in Recurrent Spiking Neural Networks [1.0923877073891446]
スパイキングニューラルネットワーク(SNN)は効率を向上させるという目標を共有しているが、ニューラルネットワーク推論の消費電力を減らすために、"イベント駆動"アプローチを採用する。
本稿では, ステートフルニューロンに対するQAT方式として, (i) 均一量子化戦略, (ii) 重み量子化の確立された方法, (ii) しきい値中心量子化の2つを紹介する。
以上の結果から,発火閾値付近の量子化レベルの密度の増加は,複数のベンチマークデータセットの精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T03:07:16Z) - Towards Neural Variational Monte Carlo That Scales Linearly with System
Size [67.09349921751341]
量子多体問題(Quantum many-body problem)は、例えば高温超伝導体のようなエキゾチックな量子現象をデミストする中心である。
量子状態を表すニューラルネットワーク(NN)と変分モンテカルロ(VMC)アルゴリズムの組み合わせは、そのような問題を解決する上で有望な方法であることが示されている。
ベクトル量子化技術を用いて,VMCアルゴリズムの局所エネルギー計算における冗長性を利用するNNアーキテクチャVector-Quantized Neural Quantum States (VQ-NQS)を提案する。
論文 参考訳(メタデータ) (2022-12-21T19:00:04Z) - A Comprehensive Survey on Model Quantization for Deep Neural Networks in
Image Classification [0.0]
有望なアプローチは量子化であり、完全な精度の値は低ビット幅の精度で保存される。
本稿では、画像分類に焦点をあてて、量子化の概念と方法に関する包括的調査を行う。
本稿では,量子化DNNにおける浮動小数点演算の低コストなビット演算への置き換えと,量子化における異なる層の感度について説明する。
論文 参考訳(メタデータ) (2022-05-14T15:08:32Z) - Low-bit Quantization of Recurrent Neural Network Language Models Using
Alternating Direction Methods of Multipliers [67.688697838109]
本稿では、乗算器の交互方向法(ADMM)を用いて、スクラッチから量子化RNNLMを訓練する新しい手法を提案する。
2つのタスクの実験から、提案されたADMM量子化は、完全な精度ベースライン RNNLM で最大31倍のモデルサイズ圧縮係数を達成したことが示唆された。
論文 参考訳(メタデータ) (2021-11-29T09:30:06Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - A Greedy Algorithm for Quantizing Neural Networks [4.683806391173103]
本稿では,事前学習したニューラルネットワークの重みを定量化するための計算効率のよい新しい手法を提案する。
本手法は,複雑な再学習を必要とせず,反復的に層を定量化する手法である。
論文 参考訳(メタデータ) (2020-10-29T22:53:10Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - Post-Training Piecewise Linear Quantization for Deep Neural Networks [13.717228230596167]
リソース制限されたデバイスへのディープニューラルネットワークのエネルギー効率向上において、量子化は重要な役割を果たす。
本稿では,長い尾を持つベル形状のテンソル値の正確な近似を実現するために,一方向線形量子化方式を提案する。
提案手法は,最先端のポストトレーニング量子化手法と比較して,画像分類,セマンティックセグメンテーション,オブジェクト検出においてわずかなオーバーヘッドで優れた性能を実現する。
論文 参考訳(メタデータ) (2020-01-31T23:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。