論文の概要: Data-free mixed-precision quantization using novel sensitivity metric
- arxiv url: http://arxiv.org/abs/2103.10051v1
- Date: Thu, 18 Mar 2021 07:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:08:59.526437
- Title: Data-free mixed-precision quantization using novel sensitivity metric
- Title(参考訳): 新規感度メトリックを用いたデータフリー混合精度量子化
- Authors: Donghyun Lee, Minkyoung Cho, Seungwon Lee, Joonho Song and Changkyu
Choi
- Abstract要約: 量子化誤差がタスクロスや他の層との相互作用に与える影響を考慮した新しい感度測定法を提案する。
実験により,提案手法が量子化感度をよりよく表現し,生成したデータは混合精度量子化に適用できることを示す。
- 参考スコア(独自算出の注目度): 6.031526641614695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization is a representative technique for compressing
neural networks, making them smaller and more efficient for deployment on edge
devices. However, an inaccessible user dataset often makes it difficult to
ensure the quality of the quantized neural network in practice. In addition,
existing approaches may use a single uniform bit-width across the network,
resulting in significant accuracy degradation at extremely low bit-widths. To
utilize multiple bit-width, sensitivity metric plays a key role in balancing
accuracy and compression. In this paper, we propose a novel sensitivity metric
that considers the effect of quantization error on task loss and interaction
with other layers. Moreover, we develop labeled data generation methods that
are not dependent on a specific operation of the neural network. Our
experiments show that the proposed metric better represents quantization
sensitivity, and generated data are more feasible to be applied to
mixed-precision quantization.
- Abstract(参考訳): トレーニング後の量子化(post-training quantization)は、ニューラルネットワークを圧縮するための代表的なテクニックである。
しかし、アクセス不能なユーザデータセットは、実際に量子化されたニューラルネットワークの品質を保証することが困難になることが多い。
さらに、既存のアプローチでは単一の一様ビット幅をネットワーク全体に使用することで、非常に低いビット幅で精度が著しく低下する可能性がある。
複数のビット幅を利用するため、感度メトリックは精度と圧縮のバランスにおいて重要な役割を果たす。
本稿では,タスク損失と他のレイヤとの相互作用に対する量子化誤差の影響を考慮した新しい感度指標を提案する。
さらに,ニューラルネットワークの特定の操作に依存しないラベル付きデータ生成手法を開発した。
実験により,提案手法が量子化感度をよりよく表現し,生成したデータは混合精度量子化に適用できることを示す。
関連論文リスト
- Fighting over-fitting with quantization for learning deep neural
networks on noisy labels [7.09232719022402]
両問題に一度に対処できる圧縮法について検討する。
我々は、ニューラルネットワークの表現性を制限することによって、量子化を意識したトレーニングが正規化として振る舞うことを仮定する。
論文 参考訳(メタデータ) (2023-03-21T12:36:58Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - Automatic Network Adaptation for Ultra-Low Uniform-Precision
Quantization [6.1664476076961146]
一様精度ニューラルネットワーク量子化は、高計算能力のために高密度に充填された演算ユニットを単純化したため、人気を集めている。
層間の量子化誤差の影響に対して不均一な感度を無視し、結果として準最適推論をもたらす。
本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれる新しいニューラルアーキテクチャ探索を提案する。
論文 参考訳(メタデータ) (2022-12-21T09:41:25Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - Scalable Verification of Quantized Neural Networks (Technical Report) [14.04927063847749]
ビットベクトル仕様を持つ量子化ニューラルネットワークのビットエクササイズ実装はPSPACEハードであることを示す。
量子化されたニューラルネットワークのSMTに基づく検証をよりスケーラブルにするための3つの手法を提案する。
論文 参考訳(メタデータ) (2020-12-15T10:05:37Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。