論文の概要: Exploiting Kernel Compression on BNNs
- arxiv url: http://arxiv.org/abs/2212.00608v1
- Date: Thu, 1 Dec 2022 16:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 15:37:20.536400
- Title: Exploiting Kernel Compression on BNNs
- Title(参考訳): BNNにおけるカーネル圧縮の爆発
- Authors: Franyell Silfa, Jose Maria Arnau, Antonio Gonz\'alez
- Abstract要約: 本研究では,一組の重みを表す一意列の数が典型的に低いことを観察する。
本稿では、最も一般的なビット列を識別し、あまり一般的でないビット列を類似の共通配列に置き換えるクラスタリング手法を提案する。
実験結果から,本手法はメモリ要求量を1.32倍に削減し,性能を1.35倍に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Binary Neural Networks (BNNs) are showing tremendous success on realistic
image classification tasks. Notably, their accuracy is similar to the
state-of-the-art accuracy obtained by full-precision models tailored to edge
devices. In this regard, BNNs are very amenable to edge devices since they
employ 1-bit to store the inputs and weights, and thus, their storage
requirements are low. Also, BNNs computations are mainly done using xnor and
pop-counts operations which are implemented very efficiently using simple
hardware structures. Nonetheless, supporting BNNs efficiently on mobile CPUs is
far from trivial since their benefits are hindered by frequent memory accesses
to load weights and inputs.
In BNNs, a weight or an input is stored using one bit, and aiming to increase
storage and computation efficiency, several of them are packed together as a
sequence of bits. In this work, we observe that the number of unique sequences
representing a set of weights is typically low. Also, we have seen that during
the evaluation of a BNN layer, a small group of unique sequences is employed
more frequently than others. Accordingly, we propose exploiting this
observation by using Huffman Encoding to encode the bit sequences and then
using an indirection table to decode them during the BNN evaluation. Also, we
propose a clustering scheme to identify the most common sequences of bits and
replace the less common ones with some similar common sequences. Hence, we
decrease the storage requirements and memory accesses since common sequences
are encoded with fewer bits.
We extend a mobile CPU by adding a small hardware structure that can
efficiently cache and decode the compressed sequence of bits. We evaluate our
scheme using the ReAacNet model with the Imagenet dataset. Our experimental
results show that our technique can reduce memory requirement by 1.32x and
improve performance by 1.35x.
- Abstract(参考訳): バイナリニューラルネットワーク(BNN)は、現実的な画像分類タスクにおいて大きな成功を収めている。
特に、その精度は、エッジデバイスに合わせた完全精度モデルによって得られた最先端の精度と似ている。
この点において、BNNは入力と重みを格納するために1ビットを使用するため、エッジデバイスには非常に適しており、ストレージ要件は低い。
また、bnns計算は主にxnorとpop-counts演算を使用して行われ、単純なハードウェア構造を使用して非常に効率的に実装される。
それでも、モバイルCPU上で効率よくBNNをサポートすることは、ロードウェイトや入力に対する頻繁なメモリアクセスによってその利点が妨げられるため、決して簡単ではない。
bnnでは、重みまたは入力を1ビットで記憶し、記憶および計算効率を向上させることを目指して、それらのいくつかをビット列としてまとめる。
本研究では,一組の重みを表す一意列の数が典型的に低いことを観察する。
また,BNN層の評価において,特定の配列の小さなグループが他よりも頻繁に採用されていることも確認した。
そこで本研究では,Huffman Encodingを用いてビットシーケンスを符号化し,BNN評価中に間接テーブルを用いて復号する手法を提案する。
また、最も一般的なビット列を識別し、あまり一般的でないビット列を類似の共通配列に置き換えるクラスタリング手法を提案する。
したがって、共通のシーケンスは少ないビットでエンコードされるため、ストレージ要件とメモリアクセスを削減できる。
圧縮されたビット列を効率よくキャッシュしデコードできる小さなハードウェア構造を追加することで、モバイルCPUを拡張します。
我々はimagenetデータセットを用いたreaacnetモデルを用いてスキームを評価する。
実験結果から,本手法はメモリ要求を 1.32 倍削減し,性能を 1.35 倍向上できることがわかった。
関連論文リスト
- NAS-BNN: Neural Architecture Search for Binary Neural Networks [55.058512316210056]
我々は、NAS-BNNと呼ばれる二元ニューラルネットワークのための新しいニューラルネットワーク探索手法を提案する。
我々の発見したバイナリモデルファミリーは、20Mから2Mまでの幅広い操作(OP)において、以前のBNNよりも優れていた。
さらに,対象検出タスクにおける探索されたBNNの転送可能性を検証するとともに,探索されたBNNを用いたバイナリ検出器は,MSデータセット上で31.6% mAP,370万 OPsなどの新たな最先端結果を得る。
論文 参考訳(メタデータ) (2024-08-28T02:17:58Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - Fast matrix multiplication for binary and ternary CNNs on ARM CPU [0.9135092203041721]
ARMアーキテクチャを持つモバイルデバイスに対して, 3次, 3次, 2次行列乗算の高速アルゴリズムを提案する。
我々のアルゴリズムは、TNN、TBN、BNNの畳み込み層と完全に接続された層を推論するために利用できる。
ARM Cortex-A73 CPU上で実験的に評価し,その推論速度を実精度,8ビット,4ビットの量子化行列乗算の効率的な実装と比較した。
論文 参考訳(メタデータ) (2022-05-18T14:52:34Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Accelerating Binarized Neural Networks via Bit-Tensor-Cores in Turing
GPUs [15.02711144514149]
バイナリニューラルネットワーク(BNN)は、従来のディープニューラルネットワークよりも大幅に高速化されている。
NVIDIA Turing GPUの最新のテンソルコアは、ビット計算を実験的にサポートし始めた。
私たちのBTC-BNN設計では、ImageNetの処理速度は毎秒5.6Kで、最先端技術よりも77%高速です。
論文 参考訳(メタデータ) (2020-06-30T07:32:02Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。