論文の概要: Fast matrix multiplication for binary and ternary CNNs on ARM CPU
- arxiv url: http://arxiv.org/abs/2205.09120v1
- Date: Wed, 18 May 2022 14:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-21 13:28:33.485397
- Title: Fast matrix multiplication for binary and ternary CNNs on ARM CPU
- Title(参考訳): ARM CPU上の二元CNNと三元CNNの高速行列乗算
- Authors: Anton Trusov, Elena Limonova, Dmitry Nikolaev, Vladimir V. Arlazarov
- Abstract要約: ARMアーキテクチャを持つモバイルデバイスに対して, 3次, 3次, 2次行列乗算の高速アルゴリズムを提案する。
我々のアルゴリズムは、TNN、TBN、BNNの畳み込み層と完全に接続された層を推論するために利用できる。
ARM Cortex-A73 CPU上で実験的に評価し,その推論速度を実精度,8ビット,4ビットの量子化行列乗算の効率的な実装と比較した。
- 参考スコア(独自算出の注目度): 0.9135092203041721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-bit quantized neural networks are of great interest in practical
applications because they significantly reduce the consumption of both memory
and computational resources. Binary neural networks are memory and
computationally efficient as they require only one bit per weight and
activation and can be computed using Boolean logic and bit count operations.
QNNs with ternary weights and activations and binary weights and ternary
activations aim to improve recognition quality compared to BNNs while
preserving low bit-width. However, their efficient implementation is usually
considered on ASICs and FPGAs, limiting their applicability in real-life tasks.
At the same time, one of the areas where efficient recognition is most in
demand is recognition on mobile devices using their CPUs. However, there are no
known fast implementations of TBNs and TNN, only the daBNN library for BNNs
inference. In this paper, we propose novel fast algorithms of ternary,
ternary-binary, and binary matrix multiplication for mobile devices with ARM
architecture. In our algorithms, ternary weights are represented using 2-bit
encoding and binary - using one bit. It allows us to replace matrix
multiplication with Boolean logic operations that can be computed on 128-bits
simultaneously, using ARM NEON SIMD extension. The matrix multiplication
results are accumulated in 16-bit integer registers. We also use special
reordering of values in left and right matrices. All that allows us to
efficiently compute a matrix product while minimizing the number of loads and
stores compared to the algorithm from daBNN. Our algorithms can be used to
implement inference of convolutional and fully connected layers of TNNs, TBNs,
and BNNs. We evaluate them experimentally on ARM Cortex-A73 CPU and compare
their inference speed to efficient implementations of full-precision, 8-bit,
and 4-bit quantized matrix multiplications.
- Abstract(参考訳): 低ビット量子化ニューラルネットワークは、メモリと計算資源の両方の消費を著しく減少させるため、実用的な応用に大きな関心を持っている。
バイナリニューラルネットワークは、重みとアクティベーションに1ビットしか必要としないため、メモリと計算効率が良く、ブール論理とビットカウント演算を用いて計算できる。
3次重み、アクティベーション、二次重み、三次アクティベーションを持つQNNは、低ビット幅を維持しながら、BNNと比べて認識品質を向上させることを目的としている。
しかしながら、それらの効率的な実装は通常ASICやFPGAで検討されており、実際のタスクにおける適用性を制限している。
同時に、効率的な認識が最も求められている分野の1つは、彼らのCPUを使用したモバイルデバイスでの認識である。
しかしながら、TBNとTNNの高速実装は知られておらず、BNNの推論のためのdaBNNライブラリのみである。
本稿では,ARM アーキテクチャを持つモバイルデバイスに対して,三進,三進,二進の行列乗算を高速に行うアルゴリズムを提案する。
本アルゴリズムでは,3進重みを2ビット符号化と2進法で表現する。
これにより、ARM NEON SIMD拡張を用いて、128ビットで同時に計算できるブール論理演算に行列乗法を置き換えることができます。
行列乗算結果は16ビット整数レジスタに蓄積される。
また、左行列と右行列の値の特殊順序付けも使用します。
これらすべてにより、daBNNのアルゴリズムと比較して、負荷とストアの数を最小化しながら、行列製品を効率的に計算できる。
我々のアルゴリズムは、TNN、TBN、BNNの畳み込み層と完全に接続された層を推論するために利用できる。
ARM Cortex-A73 CPU上で実験的に評価し,その推論速度を実精度,8ビット,4ビットの量子化行列乗算の効率的な実装と比較した。
関連論文リスト
- A&B BNN: Add&Bit-Operation-Only Hardware-Friendly Binary Neural Network [5.144744286453014]
A&B BNNは、従来のBNNにおける乗算操作の一部を削除し、残りを同じ数のビット演算で置き換えることを提案する。
マスク層は、BNNの固有の特性を活用することにより、推論中に除去することができる。
量子化RPReLU構造は、傾きを2の整数パワーに制限することで、より効率的なビット演算を可能にする。
論文 参考訳(メタデータ) (2024-03-06T14:28:49Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - Exploiting Kernel Compression on BNNs [0.0]
本研究では,一組の重みを表す一意列の数が典型的に低いことを観察する。
本稿では、最も一般的なビット列を識別し、あまり一般的でないビット列を類似の共通配列に置き換えるクラスタリング手法を提案する。
実験結果から,本手法はメモリ要求量を1.32倍に削減し,性能を1.35倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-12-01T16:05:10Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Fast Implementation of 4-bit Convolutional Neural Networks for Mobile
Devices [0.8362190332905524]
量子化ニューラルネットワークにおける4ビット行列乗算の効率的な実装について述べる。
また、MIDV-500データセット上でOCR認識のための4ビット量子化ニューラルネットワークを実演する。
その結果、4ビット量子化はモバイルデバイスに完全に適合し、十分な精度と推論時間が得られることがわかった。
論文 参考訳(メタデータ) (2020-09-14T14:48:40Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - BiQGEMM: Matrix Multiplication with Lookup Table For Binary-Coding-based
Quantized DNNs [7.635154697466773]
ディープニューラルネットワーク(DNN)におけるパラメータの数は、複雑なタスクをサポートし、モデルの精度を向上させるために急速に増加している。
本稿では,量子化 DNN 専用の行列乗法 BiQGEMM を提案する。
論文 参考訳(メタデータ) (2020-05-20T08:15:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。