論文の概要: ZynqNet: An FPGA-Accelerated Embedded Convolutional Neural Network
- arxiv url: http://arxiv.org/abs/2005.06892v1
- Date: Thu, 14 May 2020 11:54:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 04:40:11.853014
- Title: ZynqNet: An FPGA-Accelerated Embedded Convolutional Neural Network
- Title(参考訳): ZynqNet:FPGAによる組み込み畳み込みニューラルネットワーク
- Authors: David Gschwend
- Abstract要約: この論文はFPGAベースのCNNアクセラレーションの可能性を探るものである。
Zynq System-on-Chip上でのCNN実装の完全機能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Understanding is becoming a vital feature in ever more applications
ranging from medical diagnostics to autonomous vehicles. Many applications
demand for embedded solutions that integrate into existing systems with tight
real-time and power constraints. Convolutional Neural Networks (CNNs) presently
achieve record-breaking accuracies in all image understanding benchmarks, but
have a very high computational complexity. Embedded CNNs thus call for small
and efficient, yet very powerful computing platforms. This master thesis
explores the potential of FPGA-based CNN acceleration and demonstrates a fully
functional proof-of-concept CNN implementation on a Zynq System-on-Chip. The
ZynqNet Embedded CNN is designed for image classification on ImageNet and
consists of ZynqNet CNN, an optimized and customized CNN topology, and the
ZynqNet FPGA Accelerator, an FPGA-based architecture for its evaluation.
ZynqNet CNN is a highly efficient CNN topology. Detailed analysis and
optimization of prior topologies using the custom-designed Netscope CNN
Analyzer have enabled a CNN with 84.5% top-5 accuracy at a computational
complexity of only 530 million multiplyaccumulate operations. The topology is
highly regular and consists exclusively of convolutional layers, ReLU
nonlinearities and one global pooling layer. The CNN fits ideally onto the FPGA
accelerator. The ZynqNet FPGA Accelerator allows an efficient evaluation of
ZynqNet CNN. It accelerates the full network based on a nested-loop algorithm
which minimizes the number of arithmetic operations and memory accesses. The
FPGA accelerator has been synthesized using High-Level Synthesis for the Xilinx
Zynq XC-7Z045, and reaches a clock frequency of 200MHz with a device
utilization of 80% to 90 %.
- Abstract(参考訳): 画像理解は、医療診断から自動運転車まで、ますます多くのアプリケーションで不可欠な機能になりつつある。
多くのアプリケーションは、リアルタイムと電力の制約のある既存のシステムに統合された組み込みソリューションを求めています。
畳み込みニューラルネットワーク(CNN)は現在、すべての画像理解ベンチマークで記録破りの精度を達成しているが、非常に高い計算複雑性を有する。
組み込みcnnは、小さくて効率的だが強力なコンピューティングプラットフォームを必要とする。
このマスター論文はFPGAベースのCNNアクセラレーションの可能性を探究し、Zynq System-on-Chip上でのCNNの完全な概念実証を実証する。
ZynqNet Embedded CNNはImageNetの画像分類用に設計されており、最適化されカスタマイズされたCNNトポロジであるZynqNet CNNと、その評価のためのFPGAベースのアーキテクチャであるZynqNet FPGA Acceleratorで構成されている。
ZynqNet CNNは、非常に効率的なCNNトポロジーである。
カスタムデザインのNetscope CNN Analyzerを使って以前のトポロジの詳細な分析と最適化を行い、計算複雑性がわずか5億3000万のCNNを84.5%の精度で実現した。
トポロジーは非常に規則的で、畳み込み層、ReLU非線形性、大域プール層で構成されている。
CNNはFPGAアクセラレーターに理想的に適合する。
ZynqNet FPGA Acceleratorは、ZynqNet CNNの効率的な評価を可能にする。
これはネストループアルゴリズムに基づいて完全なネットワークを加速し、演算操作とメモリアクセスの数を最小化する。
FPGA加速器は、Xilinx Zynq XC-7Z045の高レベル合成を用いて合成され、80%から90%のデバイス利用で200MHzのクロック周波数に達した。
関連論文リスト
- Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Towards Enabling Dynamic Convolution Neural Network Inference for Edge
Intelligence [0.0]
エッジインテリジェンスの最近の進歩は、スループットを高め、レイテンシを低減するために、エッジネットワーク上のCNN推論を必要とする。
柔軟性を得るためには、さまざまなモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。
本稿では,スケーラブルで動的に分散したCNN推論を高速に設計するためのライブラリベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-18T22:33:42Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - Systolic-CNN: An OpenCL-defined Scalable Run-time-flexible FPGA
Accelerator Architecture for Accelerating Convolutional Neural Network
Inference in Cloud/Edge Computing [8.826181951806928]
Systolic-CNNはOpenCLで定義されたスケーラブルでランタイムフレキシブルなFPGAアクセラレータアーキテクチャである。
Systolic-CNNは、マルチテナントクラウド/エッジコンピューティングにおける様々な畳み込みニューラルネットワーク(CNN)の推論を高速化するために最適化されている。
論文 参考訳(メタデータ) (2020-12-06T03:53:11Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - CNN2Gate: Toward Designing a General Framework for Implementation of
Convolutional Neural Networks on FPGA [0.3655021726150368]
本稿では,FPGAターゲットに対するCNNモデルのコンパイルを支援する統合フレームワークを提案する。
CNN2Gateは商用ベンダーが提供するFPGAのOpenCL合成ワークフローを利用する。
本稿では,Intel FPGAプラットフォーム上でのAlexNetとVGG-16の自動合成と設計空間探索の結果について報告する。
論文 参考訳(メタデータ) (2020-04-06T01:57:53Z) - Evolutionary Bin Packing for Memory-Efficient Dataflow Inference
Acceleration on FPGA [2.3395728784538767]
FPGA(Field Programmable Gate Arrays)に実装された畳み込みニューラルネットワーク(CNN)データフロー推論アクセラレータは、エネルギー効率の向上とレイテンシの低下を実証している。
しかし、CNNパラメータメモリの形状複合体は通常FPGAオンチップメモリ(OCM)にうまくマッピングされない。
FPGA OCMに対するCNNパラメータのマッピング効率を向上させる設計手法を提案する。
論文 参考訳(メタデータ) (2020-03-24T09:55:08Z) - Computational optimization of convolutional neural networks using
separated filters architecture [69.73393478582027]
我々は、計算複雑性を低減し、ニューラルネットワーク処理を高速化する畳み込みニューラルネットワーク変換を考える。
畳み込みニューラルネットワーク(CNN)の使用は、計算的に要求が多すぎるにもかかわらず、画像認識の標準的なアプローチである。
論文 参考訳(メタデータ) (2020-02-18T17:42:13Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。