論文の概要: Fast Implementation of 4-bit Convolutional Neural Networks for Mobile
Devices
- arxiv url: http://arxiv.org/abs/2009.06488v2
- Date: Tue, 20 Oct 2020 15:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 12:33:41.079429
- Title: Fast Implementation of 4-bit Convolutional Neural Networks for Mobile
Devices
- Title(参考訳): モバイルデバイス用4ビット畳み込みニューラルネットワークの高速実装
- Authors: Anton Trusov, Elena Limonova, Dmitry Slugin, Dmitry Nikolaev, Vladimir
V. Arlazarov
- Abstract要約: 量子化ニューラルネットワークにおける4ビット行列乗算の効率的な実装について述べる。
また、MIDV-500データセット上でOCR認識のための4ビット量子化ニューラルネットワークを実演する。
その結果、4ビット量子化はモバイルデバイスに完全に適合し、十分な精度と推論時間が得られることがわかった。
- 参考スコア(独自算出の注目度): 0.8362190332905524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantized low-precision neural networks are very popular because they require
less computational resources for inference and can provide high performance,
which is vital for real-time and embedded recognition systems. However, their
advantages are apparent for FPGA and ASIC devices, while general-purpose
processor architectures are not always able to perform low-bit integer
computations efficiently. The most frequently used low-precision neural network
model for mobile central processors is an 8-bit quantized network. However, in
a number of cases, it is possible to use fewer bits for weights and
activations, and the only problem is the difficulty of efficient
implementation. We introduce an efficient implementation of 4-bit matrix
multiplication for quantized neural networks and perform time measurements on a
mobile ARM processor. It shows 2.9 times speedup compared to standard
floating-point multiplication and is 1.5 times faster than 8-bit quantized one.
We also demonstrate a 4-bit quantized neural network for OCR recognition on the
MIDV-500 dataset. 4-bit quantization gives 95.0% accuracy and 48% overall
inference speedup, while an 8-bit quantized network gives 95.4% accuracy and
39% speedup. The results show that 4-bit quantization perfectly suits mobile
devices, yielding good enough accuracy and low inference time.
- Abstract(参考訳): 量子化された低精度ニューラルネットワークは、推論のための計算リソースが少なく、リアルタイムおよび組み込み認識システムにとって必須の高性能を提供するため、非常に人気がある。
しかし、FPGAやASICデバイスではその利点は明らかであるが、汎用プロセッサアーキテクチャは必ずしもロービット整数計算を効率的に行うことはできない。
最も頻繁に使用されるモバイル中央プロセッサの低精度ニューラルネットワークモデルは8ビット量子化ネットワークである。
しかし、多くの場合において、重みやアクティベーションに少ないビットを使うことは可能であり、唯一の問題は効率的な実装の難しさである。
量子化ニューラルネットワークのための4ビット行列乗算の効率的な実装を導入し,モバイルARMプロセッサ上で時間測定を行う。
通常の浮動小数点乗算の2.9倍のスピードアップを示し、8ビットの量子化よりも1.5倍速い。
また、MIDV-500データセット上でOCR認識のための4ビット量子化ニューラルネットワークを実演する。
4ビット量子化は95.0%の精度と48%の全体的な推論速度を与え、8ビット量子化ネットワークは95.4%の精度と39%のスピードアップを与える。
その結果、4ビット量子化はモバイルデバイスに完全に適合し、十分な精度と推論時間が得られることがわかった。
関連論文リスト
- DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - DyBit: Dynamic Bit-Precision Numbers for Efficient Quantized Neural
Network Inference [28.912023025671868]
この作業は、DyBitと呼ばれる可変長エンコーディングを持つ適応データ表現をターゲットにしている。
また,予測精度と高速化をトレードオフする混合精度加速器を備えたハードウェア対応量子化フレームワークを提案する。
実験の結果、DyBitによる推論精度は4ビット量子化の最先端よりも1.997%高いことがわかった。
論文 参考訳(メタデータ) (2023-02-24T08:46:01Z) - Sub 8-Bit Quantization of Streaming Keyword Spotting Models for Embedded
Chipsets [7.5195830365852085]
本稿では,250Kパラメータのフィードフォワード,ストリーミング,ステートフリーなキーワードスポッティングモデルの全コンポーネントに対する,新しいサブ8ビット量子化対応トレーニングアルゴリズムを提案する。
大規模実験を行い、26,000時間の非特定生産、遠距離場および近距離場音声データをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T17:46:08Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Post-Training Sparsity-Aware Quantization [2.2530496464901106]
量子化(quantization)は、ディープニューラルネットワーク(DNN)において、実行性能とハードウェア効率を向上させるために使用されるテクニックである。
本研究では,非構造および動的アクティベーション・スパシティを異なる表現粒度に利用したスパーシティー対応量子化(SPARQ)法を提案する。
SPARQは、小さな精度の劣化、広く使われているハードウェアアーキテクチャの2倍の高速化、実用的なハードウェア実装を実現している。
論文 参考訳(メタデータ) (2021-05-23T20:12:35Z) - On the quantization of recurrent neural networks [9.549757800469196]
ニューラルネットワークの量子化は、標準ニューラルネットワーク公式の高精度計算の近似として定義することができる。
本稿では,Long Short-Term Memory (LSTM) ニューラルネットワークトポロジに対する整数のみの量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-01-14T04:25:08Z) - HAWQV3: Dyadic Neural Network Quantization [73.11579145354801]
現在の低精度量子化アルゴリズムは、浮動小数点から量子化された整数値への変換の隠れコストを持つことが多い。
HAWQV3は、新しい混合精度整数のみの量子化フレームワークである。
論文 参考訳(メタデータ) (2020-11-20T23:51:43Z) - Searching for Low-Bit Weights in Quantized Neural Networks [129.8319019563356]
低ビットの重みとアクティベーションを持つ量子ニューラルネットワークは、AIアクセラレータを開発する上で魅力的なものだ。
本稿では、任意の量子化ニューラルネットワークにおける離散重みを探索可能な変数とみなし、差分法を用いて正確に探索する。
論文 参考訳(メタデータ) (2020-09-18T09:13:26Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Quantized Neural Network Inference with Precision Batching [4.519884877213097]
精度はニューラルネットワークを個々のビット層に分解し、高速な1ビット演算を用いて蓄積する。
精度は、全精度ベースラインの1%エラーマージン内において、GPU上のエンドツーエンドの8倍の精度が得られる。
さまざまなアプリケーションにおいて、Precisionは、完全な精度ベースラインの1%エラーマージン内において、GPU上のエンド・ツー・エンドの8倍の値を得る。
論文 参考訳(メタデータ) (2020-02-26T19:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。