論文の概要: InTAR: Inter-Task Auto-Reconfigurable Accelerator Design for High Data Volume Variation in DNNs
- arxiv url: http://arxiv.org/abs/2502.08807v1
- Date: Wed, 12 Feb 2025 21:43:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:47:30.198173
- Title: InTAR: Inter-Task Auto-Reconfigurable Accelerator Design for High Data Volume Variation in DNNs
- Title(参考訳): InTAR:DNNにおける高データボリューム変動のためのタスク間自動再構成アクセラレータ設計
- Authors: Zifan He, Anderson Truong, Yingqi Cao, Jason Cong,
- Abstract要約: 本稿では,FPGA上のHDVアプリケーションのためのInter-Task Auto-Reconfigurable Accelerator (InTAR)を提案する。
InTARはシーケンシャル実行の高い計算効率とデータフロー実行のオフチップメモリオーバーヘッドの低減を組み合わせている。
InTARを用いて,様々なHDV DNNにマルチタスクカーネルを実装した。
- 参考スコア(独自算出の注目度): 5.762543012823378
- License:
- Abstract: The rise of deep neural networks (DNNs) has driven a boom in AI services, which results in an increased demand for computing power and memory. In modern DNNs, the data sizes produced and consumed are highly varied across operations (high data volume variation, HDV). Because existing design paradigms use fixed execution patterns that lead to either low computational efficiency due to pipeline stalls or frequent off-chip memory accesses to manage large intermediate data, HDV applications are challenging to accelerate on FPGAs. To address these challenges, we introduce the Inter-Task Auto-Reconfigurable Accelerator (InTAR), a novel accelerator design for HDV applications on FPGAs. InTAR combines the high computational efficiency of sequential execution with the reduced off-chip memory overhead of dataflow execution. It switches execution patterns automatically with a static schedule determined before circuit design based on resource constraints and model parameters. Unlike previous reconfigurable accelerators, InTAR encodes reconfiguration schedules during circuit design, allowing model-specific optimizations that allocate only the necessary logic and interconnects. Thus, InTAR achieves a high clock frequency with fewer resources and low reconfiguration time. Furthermore, InTAR supports high-level tools such as HLS for fast design generation. We implement a set of multi-task kernels in various HDV DNNs using InTAR. Compared with dataflow and sequential accelerators, InTAR exhibits $1.8\times$ and $7.1 \times$ speedups correspondingly. We also implement InTAR for GPT-2 medium as a more complex example, which achieves a speedup of $\mathbf{3.65 \sim 39.14\times}$ and a $\mathbf{1.72 \sim 10.44\times}$ boost in DSP efficiency compared to the corresponding SoTA accelerators on FPGAs.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)の台頭は、AIサービスのブームを招き、コンピューティングパワーとメモリの需要が増加した。
現代のDNNでは、生成および消費されるデータサイズは操作によって大きく異なる(高いデータボリューム変動、HDV)。
既存の設計パラダイムでは、パイプラインストールによる計算効率の低下や、大規模な中間データを管理するために頻繁にオフチップメモリアクセスに繋がる固定実行パターンを使用しているため、HDVアプリケーションはFPGA上での高速化が難しい。
これらの課題に対処するために、FPGA上のHDVアプリケーションのための新しいアクセラレーション設計であるInter-Task Auto-Reconfigurable Accelerator (InTAR)を導入する。
InTARはシーケンシャル実行の高い計算効率とデータフロー実行のオフチップメモリオーバーヘッドの低減を組み合わせている。
リソース制約とモデルパラメータに基づいて回路設計の前に決定された静的スケジュールで、実行パターンを自動的に切り替える。
以前の再構成可能アクセラレータとは異なり、InTARは回路設計中に再構成スケジュールをエンコードし、必要なロジックと相互接続だけを割り当てるモデル固有の最適化を可能にする。
これにより、InTARは少ないリソースと低い再設定時間で高いクロック周波数を達成する。
さらに、InTARは高速な設計生成のためにHLSのようなハイレベルなツールをサポートする。
InTARを用いて,様々なHDV DNNにマルチタスクカーネルを実装した。
データフローやシーケンシャルアクセラレータと比較して、InTARは1.8\times$と7.1 \times$のスピードアップを示す。
また、より複雑な例として、GPT-2媒体用のInTARを実装し、FPGA上のSoTAアクセラレータと比較して、$\mathbf{3.65 \sim 39.14\times}$と$\mathbf{1.72 \sim 10.44\times}$DSP効率の向上を実現する。
関連論文リスト
- A Runtime-Adaptive Transformer Neural Network Accelerator on FPGAs [0.0]
ADAPTORは、FPGA上のトランスフォーマーエンコーダとデコーダの高密度行列計算のためのランタイム適応型アクセラレータである。
FPGAプラットフォームにリソースを分散するための効率的な行列タイリングが組み込まれている。
最新のFPGAベースのアクセラレータと比べて1.7~2.25$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-11-27T08:53:19Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。
DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。
例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文 参考訳(メタデータ) (2024-10-09T05:16:44Z) - SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - Pathways: Asynchronous Distributed Dataflow for ML [24.940220376358457]
本稿では,加速器用大規模オーケストレーション層の設計について述べる。
私たちのシステムであるPathwaysは、新しいシステムやML研究のアイデアを探索できるように明示的に設計されています。
論文 参考訳(メタデータ) (2022-03-23T16:50:53Z) - SECDA: Efficient Hardware/Software Co-Design of FPGA-based DNN
Accelerators for Edge Inference [0.0]
本稿では,FPGAを用いたエッジデバイス上でのDeep Neural Networks (DNN) 推論アクセラレータの設計時間を短縮するハードウェア/ソフトウェア共同設計手法であるSECDAを提案する。
SECDAを用いて、エッジFPGAを含むプラットフォームであるPYNQ-Z1基板上で、2つの異なるDNNアクセラレータ設計を効率的に開発する。
我々は,4つの一般的なDNNモデルを用いた2つの加速器設計を評価し,CPUのみの推論よりもエネルギー消費を2.9$times$で3.5$times$までのモデルで平均性能を向上した。
論文 参考訳(メタデータ) (2021-10-01T15:20:29Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。