論文の概要: Fixed-point Quantization of Convolutional Neural Networks for Quantized
Inference on Embedded Platforms
- arxiv url: http://arxiv.org/abs/2102.02147v1
- Date: Wed, 3 Feb 2021 17:05:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 01:59:27.742670
- Title: Fixed-point Quantization of Convolutional Neural Networks for Quantized
Inference on Embedded Platforms
- Title(参考訳): 埋め込みプラットフォーム上での量子推論のための畳み込みニューラルネットワークの固定点量子化
- Authors: Rishabh Goyal, Joaquin Vanschoren, Victor van Acht, Stephan Nijssen
- Abstract要約: 本稿では,事前学習したCNNの各レイヤの重み,バイアス,アクティベーションを最適に定量化する手法を提案する。
このプロセスでは、パラメータの層単位での量子化が大いに役立ちます。
- 参考スコア(独自算出の注目度): 0.9954382983583577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNNs) have proven to be a powerful
state-of-the-art method for image classification tasks. One drawback however is
the high computational complexity and high memory consumption of CNNs which
makes them unfeasible for execution on embedded platforms which are constrained
on physical resources needed to support CNNs. Quantization has often been used
to efficiently optimize CNNs for memory and computational complexity at the
cost of a loss of prediction accuracy. We therefore propose a method to
optimally quantize the weights, biases and activations of each layer of a
pre-trained CNN while controlling the loss in inference accuracy to enable
quantized inference. We quantize the 32-bit floating-point precision parameters
to low bitwidth fixed-point representations thereby finding optimal bitwidths
and fractional offsets for parameters of each layer of a given CNN. We quantize
parameters of a CNN post-training without re-training it. Our method is
designed to quantize parameters of a CNN taking into account how other
parameters are quantized because ignoring quantization errors due to other
quantized parameters leads to a low precision CNN with accuracy losses of up to
50% which is far beyond what is acceptable. Our final method therefore gives a
low precision CNN with accuracy losses of less than 1%. As compared to a method
used by commercial tools that quantize all parameters to 8-bits, our approach
provides quantized CNN with averages of 53% lower memory consumption and 77.5%
lower cost of executing multiplications for the two CNNs trained on the four
datasets that we tested our work on. We find that layer-wise quantization of
parameters significantly helps in this process.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は、画像分類タスクの強力な最先端手法であることが証明されている。
しかし1つの欠点は、CNNの計算の複雑さと高メモリ消費であり、CNNをサポートするのに必要な物理的リソースに制限されている組み込みプラットフォームでの実行が不可能である。
量子化は、予測精度の損失を犠牲にして、メモリと計算複雑性のためにcnnを効率的に最適化するためにしばしば用いられる。
そこで本研究では,事前学習したCNNの各レイヤーの重み,バイアス,アクティベーションを最適に定量化し,推論精度の低下を制御し,量子化推論を可能にする手法を提案する。
32ビット浮動小数点精度パラメータを低ビット幅定点表現に定量化し、与えられたCNNの各レイヤのパラメータに最適なビット幅と分数オフセットを見つける。
CNNポストトレーニングのパラメータを、再トレーニングすることなく定量化します。
この方法は、他の量子化パラメータによる量子化誤差を無視して最大50%の精度損失を持つ低精度CNNにつながるため、他のパラメータの量子化方法を考慮してCNNのパラメータを定量化するように設計されています。
そこで本手法では,精度の低下が1%未満のcnnを低精度で提供する。
すべてのパラメータを8ビットに量子化する商用ツールが使用する方法と比較すると、この手法は、我々がテストした4つのデータセットでトレーニングされた2つのcnnに対して、平均53%のメモリ消費と77.5%のコストで量子化されたcnnを提供する。
このプロセスでは,パラメータの層別量子化が大いに役立ちます。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - GHN-QAT: Training Graph Hypernetworks to Predict Quantization-Robust
Parameters of Unseen Limited Precision Neural Networks [80.29667394618625]
Graph Hypernetworks(GHN)は、さまざまな未知のCNNアーキテクチャのパラメータを驚くほど高い精度で予測することができる。
予備研究は、8ビットおよび4ビットの量子化CNNの量子化-ロバストパラメータの予測にGHNを使うことを検討した。
4ビットの量子化CNNのGHN予測パラメータの量子化精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-09-24T23:01:00Z) - A Proximal Algorithm for Network Slimming [2.8148957592979427]
畳み込みニューラルネットワーク(CNN)の一般的なチャネルプルーニング法は、CNNの訓練に段階的な降下を用いる。
我々は、CNNをスパースで正確な構造に向けて訓練するための、近位NSと呼ばれる代替アルゴリズムを開発した。
実験の結果,1ラウンドのトレーニングの後,近位NSは競争精度と圧縮性を備えたCNNが得られることがわかった。
論文 参考訳(メタデータ) (2023-07-02T23:34:12Z) - Compressing audio CNNs with graph centrality based filter pruning [20.028643659869573]
畳み込みニューラルネットワーク(CNN)は、現実世界の多くの問題に対する高性能なソリューションにおいて一般的な場所である。
CNNには多くのパラメータとフィルタがあり、一部は他のものよりもパフォーマンスに大きな影響を与えている。
我々は,最も高い「共通性」を持つフィルタを除去するプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-05T09:38:05Z) - RedBit: An End-to-End Flexible Framework for Evaluating the Accuracy of
Quantized CNNs [9.807687918954763]
畳み込みニューラルネットワーク(CNN)は、画像処理、分類、セグメンテーションタスクのためのディープニューラルネットワークの標準クラスとなっている。
RedBitは、透過的で使いやすいインターフェースを提供するオープンソースのフレームワークで、異なるアルゴリズムの有効性をネットワークの精度で評価する。
論文 参考訳(メタデータ) (2023-01-15T21:27:35Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - GHN-Q: Parameter Prediction for Unseen Quantized Convolutional
Architectures via Graph Hypernetworks [80.29667394618625]
我々は,未知の量子化CNNアーキテクチャのパラメータの予測にグラフハイパーネットを用いることを初めて検討した。
我々は、CNNの探索空間の縮小に着目し、GHN-Qが実際に8ビットの量子化されたCNNの量子化-ロバストパラメータを予測できることを見出した。
論文 参考訳(メタデータ) (2022-08-26T08:00:02Z) - ACP: Automatic Channel Pruning via Clustering and Swarm Intelligence
Optimization for CNN [6.662639002101124]
近年、畳み込みニューラルネットワーク(CNN)はより深く広がっています。
既存のマグニチュードベースの切断方法は効率的ですが、圧縮ネットワークのパフォーマンスは予測不可能です。
新規な自動チャネル切断法(ACP)を提案する。
ACPは3つの異なる分類データセットに基づいていくつかの最先端CNNに対して評価される。
論文 参考訳(メタデータ) (2021-01-16T08:56:38Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。