論文の概要: DPUV4E: High-Throughput DPU Architecture Design for CNN on Versal ACAP
- arxiv url: http://arxiv.org/abs/2506.11441v1
- Date: Fri, 13 Jun 2025 03:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.64506
- Title: DPUV4E: High-Throughput DPU Architecture Design for CNN on Versal ACAP
- Title(参考訳): DPUV4E:Versal ACAP上のCNNのための高速DPUアーキテクチャ設計
- Authors: Guoyu Li, Pengbo Zheng, Jian Weng, Enshan Yang,
- Abstract要約: AIアプリケーション用に設計されたAMDのVersal ACAPアーキテクチャには、AIエンジン(AIE)が組み込まれ、高い計算能力を提供する。
2PE(32.6ドルTOPS)から8PE(131.0ドルTOPS)までの構成を提供するVersalアーキテクチャ用のDPUV4Eを提案する。
我々の設計では、従来のFPGAベースのDPU設計のTOPS/Wを8.6タイムで提供し、DSP使用率を95.8%、LUT使用率を44.7%、レイテンシを6.8.5%に削減しています。
- 参考スコア(独自算出の注目度): 2.9864816670649246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNNs) remain prevalent in computer vision applications, and FPGAs, known for their flexibility and energy efficiency, have become essential components in heterogeneous acceleration systems. However, traditional FPGAs face challenges in balancing performance and versatility due to limited on-chip resources. AMD's Versal ACAP architecture, tailored for AI applications, incorporates AI Engines (AIEs) to deliver high computational power. Nevertheless, the platform suffers from insufficient memory bandwidth, hindering the full utilization of the AIEs' theoretical performance. In this paper, we present DPUV4E for the Versal architecture, providing configurations ranging from 2PE ($32.6$ TOPS) to 8PE ($131.0$ TOPS). We design two computation units, Conv PE and DWC PE, to support different computational patterns. Each computation unit's data flow efficiently utilizes the data reuse opportunities to mitigate bandwidth bottlenecks. Additionally, we extend the functionality of each PE to utilize AIEs for non-convolutional operations, reducing resource overhead. Experiments on over 50 models show that compared to previous designs, our design provides $8.6\times$ the TOPS/W of traditional FPGA-based DPU designs, while reducing DSP usage by $95.8\%$, LUT usage by $44.7\%$, and latency to $68.5\%$ under single-batch conditions. For end-to-end inference, our design improving throughput by up to $2.2\times$ for depth-wise convolution models and up to $1.3\times$ for standard models.
- Abstract(参考訳): コンピュータビジョンアプリケーションでは畳み込みニューラルネットワーク(CNN)が普及し続けており、その柔軟性とエネルギー効率で知られているFPGAは、異種加速システムにおいて不可欠なコンポーネントとなっている。
しかし、従来のFPGAは、オンチップリソースが限られているため、パフォーマンスと汎用性のバランスが難しい。
AIアプリケーション用に設計されたAMDのVersal ACAPアーキテクチャには、AIエンジン(AIE)が組み込まれ、高い計算能力を提供する。
それでも、プラットフォームはメモリ帯域幅の不足に悩まされており、AIEの理論的性能のフル活用を妨げている。
本稿では,2PE (32.6$ TOPS) から8PE (131.0$ TOPS) までの構成を提供する。
我々は、異なる計算パターンをサポートするために、2つの計算ユニット、Conv PEとDWC PEを設計する。
各計算ユニットのデータフローは、データ再利用の機会を効率的に利用し、帯域幅のボトルネックを軽減する。
さらに,各PEの機能を拡張して,AIEを非畳み込み操作に利用し,リソースオーバーヘッドを低減する。
50モデル以上の実験では、従来のFPGAベースのDPU設計のTOPS/Wに対して8.6\times$を提供し、DSP使用率を95.8\%$、LUT使用率を44.7\%$、レイテンシを68.5\%$としている。
エンドツーエンドの推論では、Deep-wise Convolutionモデルで最大2.2\times$、標準モデルで最大1.3\times$までスループットを改善しています。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Hardware-Software Co-optimised Fast and Accurate Deep Reconfigurable Spiking Inference Accelerator Architecture Design Methodology [2.968768532937366]
Spiking Neural Networks(SNN)は、機械学習モデルのエネルギー効率を改善するための有望なアプローチとして登場した。
我々は,ソフトウェア学習深層ニューラルネットワーク(DNN)を高精度スパイキングモデルに移植するハードウェア・ソフトウェア共同最適化戦略を開発した。
論文 参考訳(メタデータ) (2024-10-07T05:04:13Z) - Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning [49.997801914237094]
我々は、シナジスティックなハードウェアとソフトウェアの共同設計フレームワークであるFire-Flyer AI-HPCアーキテクチャとそのベストプラクティスを紹介する。
ディープラーニング(DL)トレーニングでは、1万のPCIe A100 GPUでFire-Flyer 2をデプロイし、DGX-A100の性能評価を達成し、コストを半分に削減し、エネルギー消費を40%削減しました。
HaiScaleや3FS,HAI-Platformといったソフトウェアスタックを通じて,計算処理と通信を重複させることで,大幅なスケーラビリティを実現しました。
論文 参考訳(メタデータ) (2024-08-26T10:11:56Z) - REED: Chiplet-Based Accelerator for Fully Homomorphic Encryption [4.713756093611972]
本稿では,従来のモノリシック設計の限界を克服する,マルチチップベースのFHEアクセラレータREEDについて紹介する。
その結果、REED 2.5Dマイクロプロセッサはチップ面積96.7 mm$2$、平均電力49.4Wを7nm技術で消費していることがわかった。
論文 参考訳(メタデータ) (2023-08-05T14:04:39Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - FantastIC4: A Hardware-Software Co-Design Approach for Efficiently
Running 4bit-Compact Multilayer Perceptrons [19.411734658680967]
深層ニューラルネットワーク(DNN)の高効率な実行エンジンを得るためのソフトウェアハードウェア最適化パラダイムを提案する。
私たちのアプローチは、予測性能の高い多層パーセプトロン(MLP)の面積と電力要件を低減するための手段として、圧縮を中心にしています。
仮想超大規模FPGA XCVU440デバイス実装では総消費電力3.6Wで2.45 TOPSのスループットを達成し、22nmプロセスASICバージョンでは20.17 TOPS/Wの総電力効率を達成できることを示した。
論文 参考訳(メタデータ) (2020-12-17T19:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。