論文の概要: FPGA-based Acceleration of Neural Network for Image Classification using Vitis AI
- arxiv url: http://arxiv.org/abs/2412.20974v1
- Date: Mon, 30 Dec 2024 14:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:04:39.214133
- Title: FPGA-based Acceleration of Neural Network for Image Classification using Vitis AI
- Title(参考訳): Vitis AIを用いた画像分類のためのFPGAによるニューラルネットワークの高速化
- Authors: Zhengdong Li, Frederick Ziyang Hong, C. Patrick Yue,
- Abstract要約: 我々は,Xilinx Zynq UltraScale+ MPSoC ZCU104 FPGA評価ボード上でVitis-AIを用いて,CIFAR-10データセットを用いた画像分類のためのCNNを高速化する。
この作業は3.33-5.82倍のスループットと3.39-6.30倍のエネルギー効率を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In recent years, Convolutional Neural Networks (CNNs) have been widely adopted in computer vision. Complex CNN architecture running on CPU or GPU has either insufficient throughput or prohibitive power consumption. Hence, there is a need to have dedicated hardware to accelerate the computation workload to solve these limitations. In this paper, we accelerate a CNN for image classification with the CIFAR-10 dataset using Vitis-AI on Xilinx Zynq UltraScale+ MPSoC ZCU104 FPGA evaluation board. The work achieves 3.33-5.82x higher throughput and 3.39-6.30x higher energy efficiency than CPU and GPU baselines. It shows the potential to extract 2D features for downstream tasks, such as depth estimation and 3D reconstruction.
- Abstract(参考訳): 近年,コンピュータビジョンにおいて畳み込みニューラルネットワーク(CNN)が広く採用されている。
CPUやGPU上で動作する複雑なCNNアーキテクチャは、スループットが不十分か、電力消費が禁止されている。
したがって、これらの制限を解決するために計算負荷を高速化する専用のハードウェアが必要である。
本稿では,Xilinx Zynq UltraScale+ MPSoC ZCU104 FPGA評価ボード上のVitis-AIを用いて,CIFAR-10データセットを用いた画像分類のためのCNNを高速化する。
この作業は3.33-5.82倍のスループットと3.39-6.30倍のエネルギー効率を実現している。
深度推定や3次元再構成など,下流タスクのための2次元特徴抽出の可能性を示す。
関連論文リスト
- TrIM, Triangular Input Movement Systolic Array for Convolutional Neural Networks: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。
TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。
アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文 参考訳(メタデータ) (2024-08-05T10:18:00Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Learning on Hardware: A Tutorial on Neural Network Accelerators and
Co-Processors [0.0]
ディープニューラルネットワーク(dnn)は、複雑なタスクを解決可能にするために、多くのパラメータを考慮に入れることができるという利点がある。
コンピュータビジョンや音声認識では、一般的なアルゴリズムよりも精度が高く、タスクによっては人間の専門家よりも精度が高いものもあります。
近年のDNNの進展に伴い、疾患の診断や自動運転など、多くの応用分野が活用されています。
論文 参考訳(メタデータ) (2021-04-19T12:50:27Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - Accelerating Deep Neuroevolution on Distributed FPGAs for Reinforcement
Learning Problems [0.7734726150561088]
分散FPGA上に実装された深部神経進化を用いたAtari 2600のトレーニング時間(毎秒100万フレーム)を報告する。
結果は、IBM Neural Computerにおける最初のアプリケーションデモである。
論文 参考訳(メタデータ) (2020-05-10T00:41:39Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z) - CNN2Gate: Toward Designing a General Framework for Implementation of
Convolutional Neural Networks on FPGA [0.3655021726150368]
本稿では,FPGAターゲットに対するCNNモデルのコンパイルを支援する統合フレームワークを提案する。
CNN2Gateは商用ベンダーが提供するFPGAのOpenCL合成ワークフローを利用する。
本稿では,Intel FPGAプラットフォーム上でのAlexNetとVGG-16の自動合成と設計空間探索の結果について報告する。
論文 参考訳(メタデータ) (2020-04-06T01:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。