論文の概要: BEANNA: A Binary-Enabled Architecture for Neural Network Acceleration
- arxiv url: http://arxiv.org/abs/2108.02313v1
- Date: Wed, 4 Aug 2021 23:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:48:54.710979
- Title: BEANNA: A Binary-Enabled Architecture for Neural Network Acceleration
- Title(参考訳): BEANNA: ニューラルネットワークアクセラレーションのためのバイナリ可能なアーキテクチャ
- Authors: Caleb Terrill, Fred Chu
- Abstract要約: 本稿では,浮動小数点層とバイナリネットワーク層の両方を処理可能なニューラルネットワークハードウェアアクセラレータを提案し,評価する。
BEANNAは100MHzのクロック速度で動作し、ピークスループットは52.8ギガOps/秒である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern hardware design trends have shifted towards specialized hardware
acceleration for computationally intensive tasks like machine learning and
computer vision. While these complex workloads can be accelerated by commercial
GPUs, domain-specific hardware is far more optimal when needing to meet the
stringent memory, throughput, and power constraints of mobile and embedded
devices. This paper proposes and evaluates a Binary-Enabled Architecture for
Neural Network Acceleration (BEANNA), a neural network hardware accelerator
capable of processing both floating point and binary network layers. Through
the use of a novel 16x16 systolic array based matrix multiplier with processing
elements that compute both floating point and binary multiply-adds, BEANNA
seamlessly switches between high precision floating point and binary neural
network layers. Running at a clock speed of 100MHz, BEANNA achieves a peak
throughput of 52.8 GigaOps/second when operating in high precision mode, and
820 GigaOps/second when operating in binary mode. Evaluation of BEANNA was
performed by comparing a hybrid network with floating point outer layers and
binary hidden layers to a network with only floating point layers. The hybrid
network accelerated using BEANNA achieved a 194% throughput increase, a 68%
memory usage decrease, and a 66% energy consumption decrease per inference, all
this at the cost of a mere 0.23% classification accuracy decrease on the MNIST
dataset.
- Abstract(参考訳): 現代のハードウェアデザインのトレンドは、機械学習やコンピュータビジョンのような計算集約的なタスクのための特別なハードウェアアクセラレーションへとシフトしている。
これらの複雑なワークロードは商用GPUによって加速できるが、モバイルデバイスや組み込みデバイスの厳しいメモリ、スループット、電力制約を満たす必要がある場合、ドメイン固有のハードウェアははるかに最適である。
本稿では,浮動小数点層と2値層の両方を処理可能なニューラルネットワークハードウェアアクセラレータであるbeanna(neural network acceleration)のためのバイナリ対応アーキテクチャを提案し,評価する。
16x16 systolic array ベースの行列乗算器と浮動小数点とバイナリ乗算加算の両方を計算する処理要素を使うことで、BEANNAは高精度浮動小数点とバイナリニューラルネットワーク層をシームレスに切り替える。
100mhzのクロック速度で動作し、高精度モードでは52.8gbps/秒、バイナリモードでは820gbps/秒のピークスループットを達成している。
BEANNAの評価は,浮動小数点外層と二層隠れ層とのハイブリッドネットワークと浮動小数点層のみのネットワークを比較して行った。
beannaによるハイブリッドネットワークの高速化は、194%のスループット向上、68%のメモリ使用量減少、66%のエネルギー消費削減を達成し、mnistデータセットの0.23%の分類精度低下のコストを犠牲にした。
関連論文リスト
- An Efficient General-Purpose Optical Accelerator for Neural Networks [4.236129222287313]
ディープニューラルネットワーク(DNN)を加速するための有望なプラットフォームとして、汎用光加速器(GOAs)が登場した
本研究では,ニューラルネットワークのGOAへのマッピング効率を高めるために,ハイブリッドGOAアーキテクチャを提案する。
また、消費電力と計算遅延をそれぞれ67%以上と21%以上削減することができる。
論文 参考訳(メタデータ) (2024-09-02T13:04:08Z) - EncodingNet: A Novel Encoding-based MAC Design for Efficient Neural Network Acceleration [7.694043781601237]
符号化に基づく新しいディジタル乗算累積(MAC)設計を提案する。
この新しい設計では、乗算器は単純な論理ゲートで置き換えられ、その結果を広いビット表現で表現する。
乗算関数は単純な論理表現に置き換えられるため、回路の臨界経路はより短くなる。
論文 参考訳(メタデータ) (2024-02-25T09:35:30Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - BiFSMN: Binary Neural Network for Keyword Spotting [47.46397208920726]
BiFSMNは、KWSのための正確かつ極効率のバイナリニューラルネットワークである。
実世界のエッジハードウェアにおいて,BiFSMNは22.3倍の高速化と15.5倍のストレージ節約を実現可能であることを示す。
論文 参考訳(メタデータ) (2022-02-14T05:16:53Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - A complete, parallel and autonomous photonic neural network in a
semiconductor multimode laser [0.0]
本稿では,効率良く高速な半導体レーザの空間分布モードを用いて,完全並列かつ完全に実装されたフォトニックニューラルネットワークを実現する方法を示す。
重要なことは、すべてのニューラルネットワーク接続はハードウェアで実現され、プロセッサは前処理または後処理なしで結果を生成します。
読み出し重みを訓練して、2ビットヘッダ認識、2ビットXOR、2ビットデジタルアナログ変換を行い、0.9-103と2.9 10-2の誤り率をそれぞれ取得する。
論文 参考訳(メタデータ) (2020-12-21T07:03:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。