論文の概要: Widening and Squeezing: Towards Accurate and Efficient QNNs
- arxiv url: http://arxiv.org/abs/2002.00555v2
- Date: Wed, 12 Feb 2020 09:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 09:08:01.358866
- Title: Widening and Squeezing: Towards Accurate and Efficient QNNs
- Title(参考訳): ワイドニングとシーズ:正確で効率的なQNNを目指して
- Authors: Chuanjian Liu, Kai Han, Yunhe Wang, Hanting Chen, Qi Tian, Chunjing Xu
- Abstract要約: 量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
- 参考スコア(独自算出の注目度): 125.172220129257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization neural networks (QNNs) are very attractive to the industry
because their extremely cheap calculation and storage overhead, but their
performance is still worse than that of networks with full-precision
parameters. Most of existing methods aim to enhance performance of QNNs
especially binary neural networks by exploiting more effective training
techniques. However, we find the representation capability of quantization
features is far weaker than full-precision features by experiments. We address
this problem by projecting features in original full-precision networks to
high-dimensional quantization features. Simultaneously, redundant quantization
features will be eliminated in order to avoid unrestricted growth of dimensions
for some datasets. Then, a compact quantization neural network but with
sufficient representation ability will be established. Experimental results on
benchmark datasets demonstrate that the proposed method is able to establish
QNNs with much less parameters and calculations but almost the same performance
as that of full-precision baseline models, e.g. $29.9\%$ top-1 error of binary
ResNet-18 on the ImageNet ILSVRC 2012 dataset.
- Abstract(参考訳): 量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
しかし, 量子化特徴の表現能力は, 実験による全精度特徴よりもかなり弱いことがわかった。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することでこの問題に対処する。
同時に、冗長な量子化機能は削除され、一部のデータセットの次元の無制限な増加を避けることができる。
そして、十分な表現能力を有するコンパクト量子化ニューラルネットワークが確立される。
ベンチマークデータセットを用いた実験の結果、提案手法はパラメータや計算量がはるかに少ないQNNを確立することができるが、フル精度のベースラインモデル(例えば、ImageNet ILSVRC 2012データセット上のバイナリResNet-18のトップ1エラーなど)とほぼ同等の性能を持つことが示された。
関連論文リスト
- QVIP: An ILP-based Formal Verification Approach for Quantized Neural
Networks [14.766917269393865]
量子化は、浮動小数点数に匹敵する精度でニューラルネットワークのサイズを減らすための有望な技術として登場した。
そこで本研究では,QNNに対する新しい,効率的な形式検証手法を提案する。
特に、QNNの検証問題を整数線形制約の解法に還元する符号化を初めて提案する。
論文 参考訳(メタデータ) (2022-12-10T03:00:29Z) - QEBVerif: Quantization Error Bound Verification of Neural Networks [6.327780998441913]
ディープニューラルネットワーク(DNN)のための量子化誤差境界検証法(QEBVerif)を提案する。
QEBVerifは、差分到達可能性解析(DRA)と混合整数線形プログラミング(MILP)に基づく検証方法の2つの分析から成り立っている。
我々は、QEBVerifの有効性と効率を示す広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-06T06:34:38Z) - Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。
これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文 参考訳(メタデータ) (2022-07-15T14:34:22Z) - FxP-QNet: A Post-Training Quantizer for the Design of Mixed
Low-Precision DNNs with Dynamic Fixed-Point Representation [2.4149105714758545]
我々は、ディープニューラルネットワーク(FxP-QNet)の固定点量子化器(FixP-QNet)と呼ばれる新しいフレームワークを提案する。
FxP-QNetは、ネットワーク精度と低精度要求との間のトレードオフに基づいて、各レイヤのデータ構造ごとに量子化レベルを適用する。
その結果、FxP-QNet量子化されたAlexNet、VGG-16、ResNet-18は、全精度のメモリ要求を0.95%未満の7.16x、10.36x、6.44x、1.99%削減した。
論文 参考訳(メタデータ) (2022-03-22T23:01:43Z) - Neural network relief: a pruning algorithm based on neural activity [68.12222731020694]
重要でない接続を非活性化する簡易な重要スコア計量を提案する。
MNIST上でのLeNetアーキテクチャの性能に匹敵する性能を実現する。
このアルゴリズムは、現在のハードウェアとソフトウェアの実装を考えるとき、FLOPを最小化するように設計されていない。
論文 参考訳(メタデータ) (2021-09-22T15:33:49Z) - ECQ$^{\text{x}}$: Explainability-Driven Quantization for Low-Bit and
Sparse DNNs [13.446502051609036]
我々はディープニューラルネットワーク(DNN)のための新しい量子化パラダイムを開発し、記述する。
本手法は,説明可能なAI(XAI)の概念と情報理論の概念を活用する。
最終的な目標は、最高の情報内容の量子化クラスタにおいて、最も関連性の高い重みを維持することである。
論文 参考訳(メタデータ) (2021-09-09T12:57:06Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - AQD: Towards Accurate Quantized Object Detection [110.82620400761735]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
AQDは、超低ビット方式の完全精度と比較して、同等またはそれ以上の性能を実現していることを示す。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。