論文の概要: Quantization of Deep Neural Networks for Accurate EdgeComputing
- arxiv url: http://arxiv.org/abs/2104.12046v1
- Date: Sun, 25 Apr 2021 02:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 14:39:35.869679
- Title: Quantization of Deep Neural Networks for Accurate EdgeComputing
- Title(参考訳): エッジ計算のためのディープニューラルネットワークの量子化
- Authors: Wentao Chen, Hailong Qiu, Jian Zhuang, Chutong Zhang, Yu Hu, Qing Lu,
Tianchen Wang, Yiyu Shi{\dag}, Meiping Huang, Xiaowe Xu
- Abstract要約: 生物医学的画像分割のためのFCN、ImageNet上の画像分類のための畳み込みニューラルネットワーク(CNN)、自動音声認識のための繰り返しニューラルネットワーク(RNN)の3つの広く使用されているアプリケーションについて実験を行います。
その結果、3.5x-6.4xのメモリ削減により、量子化により3つのアプリケーションで1%、1.95%、4.23%の精度が向上できることが示された。
- 参考スコア(独自算出の注目度): 4.2893224427776175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have demonstrated their great potential in recent
years, exceeding the per-formance of human experts in a wide range of
applications. Due to their large sizes, however, compressiontechniques such as
weight quantization and pruning are usually applied before they can be
accommodated onthe edge. It is generally believed that quantization leads to
performance degradation, and plenty of existingworks have explored quantization
strategies aiming at minimum accuracy loss. In this paper, we argue
thatquantization, which essentially imposes regularization on weight
representations, can sometimes help toimprove accuracy. We conduct
comprehensive experiments on three widely used applications: fully con-nected
network (FCN) for biomedical image segmentation, convolutional neural network
(CNN) for imageclassification on ImageNet, and recurrent neural network (RNN)
for automatic speech recognition, and experi-mental results show that
quantization can improve the accuracy by 1%, 1.95%, 4.23% on the three
applicationsrespectively with 3.5x-6.4x memory reduction.
- Abstract(参考訳): 近年、ディープニューラルネットワーク(DNN)はその大きな可能性を実証しており、広範囲のアプリケーションでヒトの専門家のパフォーマンスを超越している。
しかし、その大きさが大きいため、重量量子化やプルーニングといった圧縮技術は通常、エッジに収まる前に適用される。
量子化は性能劣化を引き起こすと考えられており、多くの既存研究が最小精度の損失を目的とした量子化戦略を模索している。
本稿では,重み表現に本質的に正則化を課す量子化が,精度向上に役立つことがあることを論じる。
バイオメディカル画像セグメント化のためのFCN,イメージネット上の画像分類のための畳み込みニューラルネットワーク(CNN),自動音声認識のためのリカレントニューラルネットワーク(RNN)の3つの応用について総合的な実験を行い,3.5x-6.4xメモリ削減を伴う3つのアプリケーションにおいて量子化が精度を1%,1.95%,4.23%向上させることを示した。
関連論文リスト
- On Quantizing Implicit Neural Representations [30.257625048084968]
ニューラルウェイトを均一に定量化することで、大幅な改善がもたらされることが示される。
我々は、バイナリニューラルネットワークを用いて信号を再構成することは(メモリ非効率でも)可能であることを示した。
論文 参考訳(メタデータ) (2022-09-01T05:48:37Z) - CEG4N: Counter-Example Guided Neural Network Quantization Refinement [2.722899166098862]
我々は,カウンタ・サンプル・ガイド付きニューラルネットワーク量子化リファインメント(CEG4N)を提案する。
この手法は探索に基づく量子化と等価検証を組み合わせたものである。
最先端技術よりも最大72%精度のモデルを作成します。
論文 参考訳(メタデータ) (2022-07-09T09:25:45Z) - Edge Inference with Fully Differentiable Quantized Mixed Precision
Neural Networks [1.131071436917293]
パラメータと演算をビット精度の低いものに量子化することで、ニューラルネットワークの推論にかなりのメモリとエネルギーを節約できる。
本稿では,エッジ計算を対象とする混合精度畳み込みニューラルネットワーク(CNN)の量子化手法を提案する。
論文 参考訳(メタデータ) (2022-06-15T18:11:37Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Scalable Verification of Quantized Neural Networks (Technical Report) [14.04927063847749]
ビットベクトル仕様を持つ量子化ニューラルネットワークのビットエクササイズ実装はPSPACEハードであることを示す。
量子化されたニューラルネットワークのSMTに基づく検証をよりスケーラブルにするための3つの手法を提案する。
論文 参考訳(メタデータ) (2020-12-15T10:05:37Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。