論文の概要: Optimization of FPGA-based CNN Accelerators Using Metaheuristics
- arxiv url: http://arxiv.org/abs/2209.11272v1
- Date: Thu, 22 Sep 2022 18:57:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 13:36:29.905217
- Title: Optimization of FPGA-based CNN Accelerators Using Metaheuristics
- Title(参考訳): メタヒューリスティックスを用いたFPGAベースのCNN加速器の最適化
- Authors: Sadiq M. Sait, Aiman El-Maleh, Mohammad Altakrouri, and Ahmad Shawahna
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
- 参考スコア(独自算出の注目度): 1.854931308524932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, convolutional neural networks (CNNs) have demonstrated their
ability to solve problems in many fields and with accuracy that was not
possible before. However, this comes with extensive computational requirements,
which made general CPUs unable to deliver the desired real-time performance. At
the same time, FPGAs have seen a surge in interest for accelerating CNN
inference. This is due to their ability to create custom designs with different
levels of parallelism. Furthermore, FPGAs provide better performance per watt
compared to GPUs. The current trend in FPGA-based CNN accelerators is to
implement multiple convolutional layer processors (CLPs), each of which is
tailored for a subset of layers. However, the growing complexity of CNN
architectures makes optimizing the resources available on the target FPGA
device to deliver optimal performance more challenging. In this paper, we
present a CNN accelerator and an accompanying automated design methodology that
employs metaheuristics for partitioning available FPGA resources to design a
Multi-CLP accelerator. Specifically, the proposed design tool adopts simulated
annealing (SA) and tabu search (TS) algorithms to find the number of CLPs
required and their respective configurations to achieve optimal performance on
a given target FPGA device. Here, the focus is on the key specifications and
hardware resources, including digital signal processors, block RAMs, and
off-chip memory bandwidth. Experimental results and comparisons using four
well-known benchmark CNNs are presented demonstrating that the proposed
acceleration framework is both encouraging and promising. The SA-/TS-based
Multi-CLP achieves 1.31x - 2.37x higher throughput than the state-of-the-art
Single-/Multi-CLP approaches in accelerating AlexNet, SqueezeNet 1.1, VGGNet,
and GoogLeNet architectures on the Xilinx VC707 and VC709 FPGA boards.
- Abstract(参考訳): 近年、畳み込みニューラルネットワーク(CNN)は、これまで不可能だった多くの分野や精度で、問題を解決する能力を示している。
しかし、これは広範な計算要求が伴うため、一般的なCPUは所望のリアルタイム性能を提供できなかった。
同時にFPGAは、CNN推論の加速への関心が高まっている。
これは、異なるレベルの並列性を持つカスタムデザインを作成できる能力のためである。
さらにFPGAは、GPUよりもワット当たりの性能が優れている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することだ。
しかし、CNNアーキテクチャの複雑さの増大により、ターゲットFPGAデバイスで利用可能なリソースを最適化し、最適なパフォーマンスを提供するのがより困難になる。
本稿では、利用可能なFPGAリソースを分割してMulti-CLPアクセラレータを設計するためにメタヒューリスティックスを利用するCNNアクセラレータと、それに伴う自動設計手法を提案する。
具体的には、シミュレーションアニーリング (SA) とタブサーチ (TS) アルゴリズムを用いて、所定のターゲットFPGAデバイス上で最適な性能を達成するために、必要なCLPの数とそれぞれの構成を求める。
ここでは、デジタル信号プロセッサ、ブロックRAM、オフチップメモリ帯域幅など、重要な仕様とハードウェアリソースに焦点を当てている。
4つの有名なベンチマークcnnを用いた実験結果と比較を行い,提案手法が有望であり有望であることを示す。
SA-/TSベースのMulti-CLPは、Xilinx VC707とVC709のFPGAボード上のAlexNet、SqueezeNet 1.1、VGGNet、GoogLeNetアーキテクチャの高速化において、最先端のSingle-/Multi-CLPアプローチよりも1.31倍のスループットを実現している。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - HARFLOW3D: A Latency-Oriented 3D-CNN Accelerator Toolflow for HAR on
FPGA Devices [71.45672882756001]
本研究では,3次元畳み込みニューラルネットワークをFPGAにマッピングするための,新しいストリーミングアーキテクチャベースのツールフローを提案する。
HARFLOW3Dツールフローは、ONNXフォーマットで3D CNNを入力し、FPGAの特性を記述する。
ツールフローが幅広いモデルやデバイスをサポートする能力は、様々な3D CNNとFPGAシステムペアに関する数多くの実験を通して示される。
論文 参考訳(メタデータ) (2023-03-30T08:25:27Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FFCNN: Fast FPGA based Acceleration for Convolution neural network
inference [0.0]
畳み込みニューラルネットワーク(FFCNN)のためのFPGAの高速推論について述べる。
FFCNNは、深くパイプライン化されたOpenCLカーネルアーキテクチャに基づいている。
データ再利用とタスクマッピング技術も設計効率を向上させるために提案されている。
論文 参考訳(メタデータ) (2022-08-28T16:55:25Z) - An FPGA-based Solution for Convolution Operation Acceleration [0.0]
本稿では,畳み込み動作を高速化するFPGAアーキテクチャを提案する。
プロジェクトの目的は、一度に畳み込み層を処理できるFPGA IPコアを作成することである。
論文 参考訳(メタデータ) (2022-06-09T14:12:30Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN
Accelerators for Edge Inference [0.0]
本稿では,FPGAを用いたエッジデバイス上でのDeep Neural Networks (DNN) 推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。
SECDAを用いて、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、2つの異なるDNNアクセラレータ設計を効率的に開発する。
我々は,4つの一般的なDNNモデルを用いた2つの加速器設計を評価し,CPUのみの推論よりもエネルギー消費を2.9$times$で3.5$times$までのモデルで平均性能を向上した。
論文 参考訳(メタデータ) (2021-10-01T15:20:29Z) - Systolic-CNN: An OpenCL-defined Scalable Run-time-flexible FPGA
Accelerator Architecture for Accelerating Convolutional Neural Network
Inference in Cloud/Edge Computing [8.826181951806928]
Systolic-CNNはOpenCLで定義されたスケーラブルでランタイムフレキシブルなFPGAアクセラレータアーキテクチャである。
Systolic-CNNは、マルチテナントクラウド/エッジコンピューティングにおける様々な畳み込みニューラルネットワーク(CNN)の推論を高速化するために最適化されている。
論文 参考訳(メタデータ) (2020-12-06T03:53:11Z) - CNN2Gate: Toward Designing a General Framework for Implementation of
Convolutional Neural Networks on FPGA [0.3655021726150368]
本稿では,FPGAターゲットに対するCNNモデルのコンパイルを支援する統合フレームワークを提案する。
CNN2Gateは商用ベンダーが提供するFPGAのOpenCL合成ワークフローを利用する。
本稿では,Intel FPGAプラットフォーム上でのAlexNetとVGG-16の自動合成と設計空間探索の結果について報告する。
論文 参考訳(メタデータ) (2020-04-06T01:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。