論文の概要: A scalable and efficient convolutional neural network accelerator using
HLS for a System on Chip design
- arxiv url: http://arxiv.org/abs/2004.13075v2
- Date: Wed, 7 Oct 2020 06:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:58:06.663452
- Title: A scalable and efficient convolutional neural network accelerator using
HLS for a System on Chip design
- Title(参考訳): システムオンチップ設計のためのHLSを用いたスケーラブルで効率的な畳み込みニューラルネットワークアクセラレータ
- Authors: Kim Bjerge, Jonathan Horsted Schougaard and Daniel Ejnar Larsen
- Abstract要約: 提示されたCNNAは、ハードウェアアクセラレーションに高レベル合成(HLS)とSystemCを使用するスケーラブルなアーキテクチャを備えている。
Pythonからエクスポートされた畳み込みニューラルネットワークを高速化し、畳み込み、最大プール、完全に接続されたレイヤの組み合わせをサポートする。
平均消費電力は2.63Wで、効率は6.0GOPS/Wである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a configurable Convolutional Neural Network Accelerator
(CNNA) for a System on Chip design (SoC). The goal was to accelerate inference
of different deep learning networks on an embedded SoC platform. The presented
CNNA has a scalable architecture which uses High Level Synthesis (HLS) and
SystemC for the hardware accelerator. It is able to accelerate any
Convolutional Neural Network (CNN) exported from Python and supports a
combination of convolutional, max-pooling, and fully connected layers. A
training method with fixed-point quantized weights is proposed and presented in
the paper. The CNNA is template-based, enabling it to scale for different
targets of the Xilinx Zynq platform. This approach enables design space
exploration, which makes it possible to explore several configurations of the
CNNA during C- and RTL-simulation, fitting it to the desired platform and
model. The CNN VGG16 was used to test the solution on a Xilinx Ultra96 board
using PYNQ. The result gave a high level of accuracy in training with an
auto-scaled fixed-point Q2.14 format compared to a similar floating-point
model. It was able to perform inference in 2.0 seconds, while having an average
power consumption of 2.63 W, which corresponds to a power efficiency of 6.0
GOPS/W.
- Abstract(参考訳): 本稿では,チップ設計システム(SoC)のための構成可能な畳み込みニューラルネットワーク加速器(CNNA)を提案する。
目標は、組込みSoCプラットフォーム上で異なるディープラーニングネットワークの推論を高速化することであった。
提示されたCNNAは、ハードウェアアクセラレーションに高レベル合成(HLS)とSystemCを使用するスケーラブルなアーキテクチャを備えている。
pythonからエクスポートされた任意の畳み込みニューラルネットワーク(cnn)を加速することができ、畳み込み層、最大プール層、完全接続層の組み合わせをサポートする。
固定点量子化重み付きトレーニング法を提案し,本論文で紹介した。
CNNAはテンプレートベースで、Xilinx Zynqプラットフォームのさまざまなターゲットに対してスケールすることができる。
このアプローチは設計空間の探索を可能にし、cおよびrtlシミュレーション中にcnnaのいくつかの構成を探索し、所望のプラットフォームとモデルに適合させることができる。
CNN VGG16は、PYNQを使用してXilinx Ultra96ボード上でソリューションをテストするために使用された。
その結果、同様の浮動小数点モデルと比較して、自動スケールの固定点 Q2.14 フォーマットでのトレーニングの精度が高かった。
2.0秒で推論が可能で、平均消費電力は2.63wで、これは6.0gops/wの電力効率に相当する。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - LPYOLO: Low Precision YOLO for Face Detection on FPGA [1.7188280334580197]
監視システムにおける顔検出は、セキュリティ市場の最も期待されている応用である。
TinyYolov3アーキテクチャは、顔検出のために再設計され、デプロイされる。
Modelは、FINNフレームワークとFINN-HLSライブラリを使用して、HLSベースのアプリケーションに変換される。
論文 参考訳(メタデータ) (2022-07-21T13:54:52Z) - Towards Enabling Dynamic Convolution Neural Network Inference for Edge
Intelligence [0.0]
エッジインテリジェンスの最近の進歩は、スループットを高め、レイテンシを低減するために、エッジネットワーク上のCNN推論を必要とする。
柔軟性を得るためには、さまざまなモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。
本稿では,スケーラブルで動的に分散したCNN推論を高速に設計するためのライブラリベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-18T22:33:42Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - A quantum algorithm for training wide and deep classical neural networks [72.2614468437919]
勾配勾配勾配による古典的トレーサビリティに寄与する条件は、量子線形系を効率的に解くために必要な条件と一致することを示す。
MNIST画像データセットがそのような条件を満たすことを数値的に示す。
我々は、プールを用いた畳み込みニューラルネットワークのトレーニングに$O(log n)$の実証的証拠を提供する。
論文 参考訳(メタデータ) (2021-07-19T23:41:03Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Exploration of Hardware Acceleration Methods for an XNOR Traffic Signs
Classifier [0.0]
本研究では,交通標識分類のためのXNORネットワークの高速化の可能性を検討する。
我々は,約450fpsの推論が可能な,XNORネットワーク用の独自のHDLアクセラレータを提案する。
さらに優れた結果は、Xilinx FINNアクセラレータの2番目の方法で得られ、550フレームレートで入力画像を処理することができます。
論文 参考訳(メタデータ) (2021-04-06T06:01:57Z) - A Tutorial on Quantum Convolutional Neural Networks (QCNN) [11.79760591464748]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンにおいて一般的なモデルである。
CNNは、与えられたデータやモデルの次元が大きすぎる場合、効率的に学習するのは難しい。
量子畳み込みニューラルネットワーク(Quantum Convolutional Neural Network, QCNN)は、量子コンピューティング環境を用いてCNNで解決する問題に対する新しい解決策を提供する。
論文 参考訳(メタデータ) (2020-09-20T12:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。