論文の概要: NeuroMAX: A High Throughput, Multi-Threaded, Log-Based Accelerator for
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2007.09578v1
- Date: Sun, 19 Jul 2020 03:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 00:42:31.174683
- Title: NeuroMAX: A High Throughput, Multi-Threaded, Log-Based Accelerator for
Convolutional Neural Networks
- Title(参考訳): NeuroMAX:畳み込みニューラルネットワークのための高スループット、マルチスレッド、ログベースの加速器
- Authors: Mahmood Azhar Qureshi and Arslan Munir
- Abstract要約: 畳み込みニューラルネットワークのための高スループット、マルチスレッド、ログベースのPEコアを導入する。
設計されたコアは、PEカウント当たりのピークスループットを200%向上させる。
また,PEコアのマルチスレッド特性を利用した2次元重み付き放送データフローを提案する。
- 参考スコア(独自算出の注目度): 2.2843885788439797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) require high throughput hardware
accelerators for real time applications owing to their huge computational cost.
Most traditional CNN accelerators rely on single core, linear processing
elements (PEs) in conjunction with 1D dataflows for accelerating convolution
operations. This limits the maximum achievable ratio of peak throughput per PE
count to unity. Most of the past works optimize their dataflows to attain close
to a 100% hardware utilization to reach this ratio. In this paper, we introduce
a high throughput, multi-threaded, log-based PE core. The designed core
provides a 200% increase in peak throughput per PE count while only incurring a
6% increase in area overhead compared to a single, linear multiplier PE core
with same output bit precision. We also present a 2D weight broadcast dataflow
which exploits the multi-threaded nature of the PE cores to achieve a high
hardware utilization per layer for various CNNs. The entire architecture, which
we refer to as NeuroMAX, is implemented on Xilinx Zynq 7020 SoC at 200 MHz
processing clock. Detailed analysis is performed on throughput, hardware
utilization, area and power breakdown, and latency to show performance
improvement compared to previous FPGA and ASIC designs.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、計算コストが大きいため、リアルタイムアプリケーションに高いスループットのハードウェアアクセラレータを必要とする。
ほとんどの従来のCNNアクセラレータは、畳み込み操作を加速する1Dデータフローとともに、単一のコア、線形処理要素(PE)に依存している。
これにより、PEカウント当たりのピークスループットの最大比率をユニティに制限する。
過去の作業の多くは、この比率に達するために、そのデータフローを100%のハードウェア利用に最適化している。
本稿では,高スループット,マルチスレッド,ログベースのPEコアを提案する。
設計されたコアはPEカウントあたりのピークスループットを200%増加させ、同じ出力ビット精度の1つの線形乗算器PEコアと比較して6%のオーバヘッドしか増加しない。
また,PEコアのマルチスレッド特性を利用して,多層CNNにおいて高いハードウェア利用を実現する2次元重み放送データフローを提案する。
アーキテクチャ全体がNeuroMAXと呼ばれ、200MHzの処理クロックでXilinx Zynq 7020 SoC上に実装されている。
スループット、ハードウェア利用、面積と電力消費の減少、および従来のFPGAやASICの設計と比較して性能改善を示す遅延について詳細な分析を行う。
関連論文リスト
- FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - ProTEA: Programmable Transformer Encoder Acceleration on FPGA [0.0]
トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、様々な用途で広く利用されている。
TNNの人気にもかかわらず、これら2つの重要なブロックをターゲットにしたハードウェアアクセラレータは限られている。
本稿では,最先端の変圧器エンコーダの高密度計算に適したプログラム実行アクセラレータである textitProTEA を紹介する。
論文 参考訳(メタデータ) (2024-09-21T01:44:13Z) - H2PIPE: High throughput CNN Inference on FPGAs with High-Bandwidth Memory [1.0056445773367833]
畳み込みニューラルネットワーク(CNN)は、大量の並列化可能な計算と頻繁なメモリアクセスを組み合わせる。
この作業は最先端のデータフローアクセラレータを拡張して、HBM(High-Bandwidth Memory)とオンチップストレージの両方を活用する。
最高の先行研究と比較して、ResNet-18、ResNet-50、VGG-16で、少なくとも19.4x、5.1x、10.5xのスピードアップが得られる。
論文 参考訳(メタデータ) (2024-08-17T14:25:32Z) - FPGA-QHAR: Throughput-Optimized for Quantized Human Action Recognition
on The Edge [0.6254873489691849]
本稿では,8ビット量子化された2ストリームSimpleNet-PyTorch CNNアーキテクチャに基づく,エンドツーエンドHAR拡張型HW/SWアクセラレータの共設計を提案する。
私たちの開発では、部分的にストリーミングデータフローアーキテクチャを使用して、ネットワーク設計やリソース利用のトレードオフよりも高いスループットを実現しています。
提案手法は,ZCU104上の187MHzで約24FPSのリアルタイム推論スループットを用いて,約81%の予測精度を達成した。
論文 参考訳(メタデータ) (2023-11-04T10:38:21Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。