論文の概要: WinoCNN: Kernel Sharing Winograd Systolic Array for Efficient
Convolutional Neural Network Acceleration on FPGAs
- arxiv url: http://arxiv.org/abs/2107.04244v1
- Date: Fri, 9 Jul 2021 06:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 01:00:40.673468
- Title: WinoCNN: Kernel Sharing Winograd Systolic Array for Efficient
Convolutional Neural Network Acceleration on FPGAs
- Title(参考訳): WinoCNN:FPGA上での効率的な畳み込みニューラルネットワーク高速化のためのカーネル共有Winograd Systolic Array
- Authors: Xinheng Liu, Yao Chen, Cong Hao, Ashutosh Dhar, Deming Chen
- Abstract要約: 我々はまず、最適化されたWinograd処理要素(WinoPE)を提案する。
我々は、WinoCNNと呼ばれる高効率なサイストリックアレイ加速器を構築した。
提案するアクセラレータを複数のFPGA上で実装し、スループットとDSP効率の両方で最先端の設計を上回ります。
- 参考スコア(独自算出の注目度): 8.73707548868892
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The combination of Winograd's algorithm and systolic array architecture has
demonstrated the capability of improving DSP efficiency in accelerating
convolutional neural networks (CNNs) on FPGA platforms. However, handling
arbitrary convolution kernel sizes in FPGA-based Winograd processing elements
and supporting efficient data access remain underexplored. In this work, we are
the first to propose an optimized Winograd processing element (WinoPE), which
can naturally support multiple convolution kernel sizes with the same amount of
computing resources and maintains high runtime DSP efficiency. Using the
proposed WinoPE, we construct a highly efficient systolic array accelerator,
termed WinoCNN. We also propose a dedicated memory subsystem to optimize the
data access. Based on the accelerator architecture, we build accurate resource
and performance modeling to explore optimal accelerator configurations under
different resource constraints. We implement our proposed accelerator on
multiple FPGAs, which outperforms the state-of-the-art designs in terms of both
throughput and DSP efficiency. Our implementation achieves DSP efficiency up to
1.33 GOPS/DSP and throughput up to 3.1 TOPS with the Xilinx ZCU102 FPGA. These
are 29.1\% and 20.0\% better than the best solutions reported previously,
respectively.
- Abstract(参考訳): Winogradのアルゴリズムとsystolic arrayアーキテクチャの組み合わせにより、FPGAプラットフォーム上での畳み込みニューラルネットワーク(CNN)の高速化において、DSP効率を改善する能力が実証された。
しかし、FPGAベースのWinograd処理要素で任意のコンボリューションカーネルサイズを扱い、効率的なデータアクセスをサポートすることは未定である。
本研究では,WinoPEを最適化し,同じ計算資源で複数のカーネルサイズを自然にサポートし,高い実行時 DSP 効率を維持できる,最適化されたWinograd 処理素子を提案する。
提案したWinoPEを用いて,WinoCNNと呼ばれる高効率なシリアルアレイ加速器を構築する。
また,データアクセスを最適化する専用メモリサブシステムを提案する。
アクセラレーションアーキテクチャに基づいて,リソース制約の異なる最適なアクセラレーション構成を探索するために,正確なリソースとパフォーマンスのモデリングを構築する。
提案するアクセラレータを複数のFPGA上で実装し、スループットとDSP効率の両方で最先端の設計を上回ります。
Xilinx ZCU102 FPGA で DSP の効率を 1.33 GOPS/DSP まで向上し,スループットを 3.1 TOPS まで向上させる。
これらはそれぞれ、前述した最高の解よりも29.1\%と20.0\%良い。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - An FPGA-Based Accelerator Enabling Efficient Support for CNNs with
Arbitrary Kernel Sizes [11.681245043617848]
大規模なカーネルを持つ畳み込みニューラルネットワーク(CNN)は、様々な視覚ベースのアプリケーションで顕著なパフォーマンスを示している。
任意のカーネルサイズを持つCNNを効率的に展開するためのFPGAベースの推論アクセラレータを提案する。
提案されたハードウェアアクセラレータは、Intel Arria 10 FPGAで評価され、同一ネットワーク上の先行技術よりも最大3.91倍のDSP効率を実現している。
論文 参考訳(メタデータ) (2024-02-22T05:52:55Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Design optimization for high-performance computing using FPGA [0.0]
我々は、CIFARでトレーニングされたResNet20を使用して、Tensil AIのオープンソース推論アクセラレーターを最大性能に最適化する。
CIFARテストデータセットを実行すると、元の32ビット浮動小数点から丸めると、ほとんど精度が低下する。
提案した加速器は、100MHzで5.21Wのオンチップ消費電力を持つ21.12ギガ/秒(GOP/s)のスループットを実現する。
論文 参考訳(メタデータ) (2023-04-24T22:20:42Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - SPEC2: SPECtral SParsE CNN Accelerator on FPGAs [31.31419913907224]
我々は、スペクトルCNNを練習し、加速する最初の研究であるSPEC2を提案する。
スパースカーネルへの効率的なランダムアクセスが可能なFPGA上に最適化されたパイプラインアーキテクチャを設計する。
得られたアクセラレータは、VGG16の最先端FPGA実装と比較して最大24倍のスループットを実現している。
論文 参考訳(メタデータ) (2019-10-16T23:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。