論文の概要: SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN
Accelerators for Edge Inference
- arxiv url: http://arxiv.org/abs/2110.00478v1
- Date: Fri, 1 Oct 2021 15:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:19:27.219087
- Title: SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN
Accelerators for Edge Inference
- Title(参考訳): SECDA:エッジ推論のためのFPGAベースのDNN加速器の効率的なハードウェア/ソフトウェア共同設計
- Authors: Jude Haris, Perry Gibson, Jos\'e Cano, Nicolas Bohm Agostini, David
Kaeli
- Abstract要約: 本稿では,FPGAを用いたエッジデバイス上でのDeep Neural Networks (DNN) 推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。
SECDAを用いて、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、2つの異なるDNNアクセラレータ設計を効率的に開発する。
我々は,4つの一般的なDNNモデルを用いた2つの加速器設計を評価し,CPUのみの推論よりもエネルギー消費を2.9$times$で3.5$times$までのモデルで平均性能を向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Edge computing devices inherently face tight resource constraints, which is
especially apparent when deploying Deep Neural Networks (DNN) with high memory
and compute demands. FPGAs are commonly available in edge devices. Since these
reconfigurable circuits can achieve higher throughput and lower power
consumption than general purpose processors, they are especially well-suited
for DNN acceleration. However, existing solutions for designing FPGA-based DNN
accelerators for edge devices come with high development overheads, given the
cost of repeated FPGA synthesis passes, reimplementation in a Hardware
Description Language (HDL) of the simulated design, and accelerator system
integration.
In this paper we propose SECDA, a new hardware/software co-design methodology
to reduce design time of optimized DNN inference accelerators on edge devices
with FPGAs. SECDA combines cost-effective SystemC simulation with hardware
execution, streamlining design space exploration and the development process
via reduced design evaluation time. As a case study, we use SECDA to
efficiently develop two different DNN accelerator designs on a PYNQ-Z1 board, a
platform that includes an edge FPGA. We quickly and iteratively explore the
system's hardware/software stack, while identifying and mitigating performance
bottlenecks. We evaluate the two accelerator designs with four common DNN
models, achieving an average performance speedup across models of up to
3.5$\times$ with a 2.9$\times$ reduction in energy consumption over CPU-only
inference. Our code is available at https://github.com/gicLAB/SECDA
- Abstract(参考訳): エッジコンピューティングデバイスは本質的にリソースの厳しい制約に直面しており、特にDNN(Deep Neural Networks)を高いメモリと計算要求でデプロイする場合に顕著である。
FPGAはエッジデバイスで一般的に利用可能である。
これらの再構成可能な回路は汎用プロセッサよりも高いスループットと低消費電力を実現することができるため、DNN加速には特に適している。
しかし、FPGAベースのエッジデバイス用DNNアクセラレータを設計するための既存のソリューションは、FPGA合成パスの繰り返しコスト、シミュレートされた設計のハードウェア記述言語(HDL)の再実装、アクセラレータシステム統合など、高い開発オーバーヘッドを伴っている。
本稿では,FPGAを用いたエッジデバイス上でのDNN推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。
SECDAはコスト効率のよいSystemCシミュレーションとハードウェアの実行、設計空間探索の合理化と設計評価時間の短縮による開発プロセスを組み合わせる。
ケーススタディでは、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、SECDAを用いて、2つの異なるDNNアクセラレータ設計を効率的に開発する。
性能ボトルネックを特定し緩和しながら,システムのハードウェア/ソフトウェアスタックを迅速かつ反復的に探索する。
我々は4つの一般的なDNNモデルによる2つの加速器設計を評価し、CPUのみの推論よりもエネルギー消費を2.9$\times$で3.5$\times$までのモデルで平均的な性能向上を達成する。
私たちのコードはhttps://github.com/gicLAB/SECDAで利用可能です。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - FireFly v2: Advancing Hardware Support for High-Performance Spiking
Neural Network with a Spatiotemporal FPGA Accelerator [8.0611988136866]
Spiking Neural Networks(SNN)は、Artificial Neural Networks(ANN)の代替として期待されている。
特殊なSNNハードウェアは、電力と性能の点で汎用デバイスよりも明確な優位性を提供する。
FPGA SNNアクセラレータであるFireFly v2は、現在のSOTA SNNアルゴリズムにおける非スパイク操作の問題に対処することができる。
論文 参考訳(メタデータ) (2023-09-28T04:17:02Z) - End-to-end codesign of Hessian-aware quantized neural networks for FPGAs
and ASICs [49.358119307844035]
我々は、共設計ニューラルネットワーク(NN)のトレーニングと実装のためのエンドツーエンドワークフローを開発する。
これにより、ハードウェアにおける効率的なNN実装が、非専門家に、単一のオープンソースワークフローでアクセスできるようになる。
大型ハドロン衝突型加速器(LHC)の40MHz衝突速度で動作しなければならないトリガー決定を含む粒子物理学アプリケーションにおけるワークフローを実演する。
シミュレーションLHC陽子-陽子衝突における高速粒子ジェット用混合精度NNを実装した。
論文 参考訳(メタデータ) (2023-04-13T18:00:01Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - HALF: Holistic Auto Machine Learning for FPGAs [1.9146960682777232]
ディープニューラルネットワーク(DNN)は、画像や自然言語処理などの組み込みシステムに関連する領域において、複雑な問題を解決することができる。
特定のFPGAプラットフォームにDNNを効率よく実装するためには、例えばエネルギー効率など、膨大な設計パラメータを考慮する必要がある。
FPGA上でのDNN実装の質は, 自動的, 全体的設計手法により大幅に向上する。
論文 参考訳(メタデータ) (2021-06-28T14:45:47Z) - DNN-Chip Predictor: An Analytical Performance Predictor for DNN
Accelerators with Various Dataflows and Hardware Architectures [30.689015188050405]
近年のディープニューラルネットワーク(DNN)のブレークスルーにより、DNNアクセラレーターの需要が大幅に増加した。
DNN-Chip Predictorは、DNNアクセラレータのエネルギ、スループット、遅延を実際の実装前に正確に予測できる分析性能予測器である。
論文 参考訳(メタデータ) (2020-02-26T02:59:18Z) - AutoDNNchip: An Automated DNN Chip Predictor and Builder for Both FPGAs
and ASICs [36.490296335959485]
AutoDNNchipはFPGAおよびASICベースのDNNチップの実装を、指定されたアプリケーションとデータセットのために自動生成するチップジェネレータである。
我々のチップ予測器の予測性能は実測値と検証時に10%異なる。
当社のAutoDNNchipによって生成されたアクセラレータは、専門家による最先端アクセラレータよりも優れた(最大3.86倍の改善)パフォーマンスを実現できます。
論文 参考訳(メタデータ) (2020-01-06T05:32:15Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。