論文の概要: An FPGA-Based Accelerator Enabling Efficient Support for CNNs with
Arbitrary Kernel Sizes
- arxiv url: http://arxiv.org/abs/2402.14307v1
- Date: Thu, 22 Feb 2024 05:52:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:12:42.160877
- Title: An FPGA-Based Accelerator Enabling Efficient Support for CNNs with
Arbitrary Kernel Sizes
- Title(参考訳): 任意カーネルサイズCNNの効率的なサポートを実現するFPGAベースのアクセラレータ
- Authors: Miaoxin Wang, Xiao Wu, Jun Lin, Zhongfeng Wang
- Abstract要約: 大規模なカーネルを持つ畳み込みニューラルネットワーク(CNN)は、様々な視覚ベースのアプリケーションで顕著なパフォーマンスを示している。
任意のカーネルサイズを持つCNNを効率的に展開するためのFPGAベースの推論アクセラレータを提案する。
提案されたハードウェアアクセラレータは、Intel Arria 10 FPGAで評価され、同一ネットワーク上の先行技術よりも最大3.91倍のDSP効率を実現している。
- 参考スコア(独自算出の注目度): 11.681245043617848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) with large kernels, drawing inspiration
from the key operations of vision transformers (ViTs), have demonstrated
impressive performance in various vision-based applications. To address the
issue of computational efficiency degradation in existing designs for
supporting large-kernel convolutions, an FPGA-based inference accelerator is
proposed for the efficient deployment of CNNs with arbitrary kernel sizes.
Firstly, a Z-flow method is presented to optimize the computing data flow by
maximizing data reuse opportunity. Besides, the proposed design, incorporating
the kernel-segmentation (Kseg) scheme, enables extended support for
large-kernel convolutions, significantly reducing the storage requirements for
overlapped data. Moreover, based on the analysis of typical block structures in
emerging CNNs, vertical-fused (VF) and horizontal-fused (HF) methods are
developed to optimize CNN deployments from both computation and transmission
perspectives. The proposed hardware accelerator, evaluated on Intel Arria 10
FPGA, achieves up to 3.91 times better DSP efficiency than prior art on the
same network. Particularly, it demonstrates efficient support for large-kernel
CNNs, achieving throughputs of 169.68 GOPS and 244.55 GOPS for RepLKNet-31 and
PyConvResNet-50, respectively, both of which are implemented on hardware for
the first time.
- Abstract(参考訳): 大きなカーネルを持つ畳み込みニューラルネットワーク(cnns)は、視覚トランスフォーマー(vits)のキー操作からインスピレーションを得て、様々な視覚ベースのアプリケーションで印象的なパフォーマンスを示している。
大規模カーネルの畳み込みをサポートする既存設計における計算効率の低下問題に対処するため,任意のカーネルサイズを持つCNNの効率的な展開にFPGAベースの推論アクセラレータを提案する。
まず、データの再利用機会を最大化することにより、データフローを最適化するZ-flow法を提案する。
さらに,カーネルセグメンテーション(Kseg)方式を取り入れた設計により,大規模カーネルの畳み込みを拡張可能とし,重複データに対するストレージ要求を大幅に低減する。
さらに, 新興CNNにおける典型的なブロック構造の解析に基づいて, 水平拡散(VF)法と水平拡散(HF)法を開発し, 計算と伝送の両方の観点からCNNの配置を最適化する。
提案されたハードウェアアクセラレータは、Intel Arria 10 FPGAで評価され、同一ネットワーク上の先行技術よりも最大3.91倍のDSP効率を達成する。
特に、RepLKNet-31 と PyConvResNet-50 で 169.68 GOPS と 244.55 GOPS のスループットを達成し、いずれも初めてハードウェア上で実装された。
関連論文リスト
- DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - LKD-Net: Large Kernel Convolution Network for Single Image Dehazing [70.46392287128307]
本稿では,LKCB(Large Kernel Convolution Dehaze Block)とCEFN(Channel Enhanced Feed-forward Network)を組み合わせた新しいLKDブロックを提案する。
設計されたDLKCBは、大規模なカーネルの畳み込みを、大量のパラメータや計算オーバーヘッドを伴わずに、より小さな奥行きの畳み込みと奥行きの縮み込みに分割することができる。
我々のLKD-NetはTransformerベースのメソッドであるDehamerを1.79%の#Paramと48.9%のFLOPで劇的に上回っている。
論文 参考訳(メタデータ) (2022-09-05T06:56:48Z) - FFCNN: Fast FPGA based Acceleration for Convolution neural network
inference [0.0]
畳み込みニューラルネットワーク(FFCNN)のためのFPGAの高速推論について述べる。
FFCNNは、深くパイプライン化されたOpenCLカーネルアーキテクチャに基づいている。
データ再利用とタスクマッピング技術も設計効率を向上させるために提案されている。
論文 参考訳(メタデータ) (2022-08-28T16:55:25Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - A Design Flow for Mapping Spiking Neural Networks to Many-Core
Neuromorphic Hardware [4.527975416669432]
多コアニューロモルフィックハードウェアは、大規模な機械学習モデルを実行することが期待されている。
設計の複雑さに対処するためには、リアルタイムのパフォーマンスを保証するために予測可能な設計フローが必要である。
スパイクニューラルネットワークを多コアニューロモルフィックハードウェアにマッピングするためのSDFGに基づく設計フローを提案する。
論文 参考訳(メタデータ) (2021-08-27T18:08:08Z) - WinoCNN: Kernel Sharing Winograd Systolic Array for Efficient
Convolutional Neural Network Acceleration on FPGAs [8.73707548868892]
我々はまず、最適化されたWinograd処理要素(WinoPE)を提案する。
我々は、WinoCNNと呼ばれる高効率なサイストリックアレイ加速器を構築した。
提案するアクセラレータを複数のFPGA上で実装し、スループットとDSP効率の両方で最先端の設計を上回ります。
論文 参考訳(メタデータ) (2021-07-09T06:37:47Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - FPGA deep learning acceleration based on convolutional neural network [0.0]
本稿では、フィールドプログラマブル論理ゲートアレイ(FPGA)に基づく畳み込みニューラルネットワークハードウェアアクセラレータを提案する。
本論文で提案した加速器のエネルギー効率比は32.73 GOPS/Wで、これは既存の溶液よりも34%高く、性能は317.86 GOPSに達する。
論文 参考訳(メタデータ) (2020-11-17T16:20:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。