論文の概要: ProTEA: Programmable Transformer Encoder Acceleration on FPGA
- arxiv url: http://arxiv.org/abs/2409.13975v1
- Date: Sat, 21 Sep 2024 01:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 04:17:38.690090
- Title: ProTEA: Programmable Transformer Encoder Acceleration on FPGA
- Title(参考訳): ProTEA:FPGA上でのプログラマブルトランスフォーマーエンコーダ高速化
- Authors: Ehsan Kabir, Jason D. Bakos, David Andrews, Miaoqing Huang,
- Abstract要約: トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、様々な用途で広く利用されている。
TNNの人気にもかかわらず、これら2つの重要なブロックをターゲットにしたハードウェアアクセラレータは限られている。
本稿では,最先端の変圧器エンコーダの高密度計算に適したプログラム実行アクセラレータである textitProTEA を紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer neural networks (TNN) have been widely utilized on a diverse range of applications, including natural language processing (NLP), machine translation, and computer vision (CV). Their widespread adoption has been primarily driven by the exceptional performance of their multi-head self-attention block used to extract key features from sequential data. The multi-head self-attention block is followed by feedforward neural networks, which play a crucial role in introducing non-linearity to assist the model in learning complex patterns. Despite the popularity of TNNs, there has been limited numbers of hardware accelerators targeting these two critical blocks. Most prior works have concentrated on sparse architectures that are not flexible for popular TNN variants. This paper introduces \textit{ProTEA}, a runtime programmable accelerator tailored for the dense computations of most of state-of-the-art transformer encoders. \textit{ProTEA} is designed to reduce latency by maximizing parallelism. We introduce an efficient tiling of large matrices that can distribute memory and computing resources across different hardware components within the FPGA. We provide run time evaluations of \textit{ProTEA} on a Xilinx Alveo U55C high-performance data center accelerator card. Experimental results demonstrate that \textit{ProTEA} can host a wide range of popular transformer networks and achieve near optimal performance with a tile size of 64 in the multi-head self-attention block and 6 in the feedforward networks block when configured with 8 parallel attention heads, 12 layers, and an embedding dimension of 768 on the U55C. Comparative results are provided showing \textit{ProTEA} is 2.5$\times$ faster than an NVIDIA Titan XP GPU. Results also show that it achieves 1.3 -- 2.8$\times$ speed up compared with current state-of-the-art custom designed FPGA accelerators.
- Abstract(参考訳): トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、様々な用途で広く利用されている。
彼らの普及は、主にシーケンシャルデータから重要な特徴を抽出するために使用されるマルチヘッド自己注意ブロックの例外的なパフォーマンスによって引き起こされている。
マルチヘッド自己注意ブロックに続いて、フィードフォワードニューラルネットワークが、複雑なパターンの学習においてモデルを支援するために非線形性を導入する上で重要な役割を果たす。
TNNの人気にもかかわらず、これら2つの重要なブロックをターゲットにしたハードウェアアクセラレータは限られている。
以前の作業のほとんどは、一般的なTNNのバリエーションには柔軟性のないスパースアーキテクチャに集中していた。
本稿では,ほとんどの最先端変換器エンコーダの高密度計算に適した実行時プログラマブルアクセラレータである「textit{ProTEA}」を紹介する。
\textit{ProTEA} は並列性を最大化することでレイテンシを低減するように設計されている。
FPGA内の様々なハードウェアコンポーネント間でメモリと計算資源を分散できる大規模な行列の効率的なタイリングを導入する。
我々は, Xilinx Alveo U55C 高性能データセンターアクセラレータカード上での \textit{ProTEA} の実行時間評価を行う。
実験結果から,U55C 上に 8 個の並列アテンションヘッド,12 層,埋め込み寸法 768 を配置した場合に,多頭部自己注意ブロックにおいて 64 個のタイルサイズで,フィードフォワードネットワークブロックにおいて 6 個のタイルサイズで,幅広い人気トランスフォーマーネットワークをホストし,ほぼ最適な性能が得られることが示された。
比較結果は、NVIDIA Titan XP GPUよりも2.5$\times$高速であることを示している。
また、現在の最先端のカスタム設計FPGAアクセラレータと比べて1.3-2.8$\times$スピードアップを達成した。
関連論文リスト
- FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。
本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。
並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文 参考訳(メタデータ) (2024-09-21T05:25:46Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - Spiker+: a framework for the generation of efficient Spiking Neural
Networks FPGA accelerators for inference at the edge [49.42371633618761]
Spiker+はFPGA上で、エッジでの推論のために効率よく、低消費電力で、低領域でカスタマイズされたSpking Neural Networks(SNN)アクセラレータを生成するためのフレームワークである。
Spiker+ は MNIST と Spiking Heidelberg Digits (SHD) の2つのベンチマークデータセットでテストされている。
論文 参考訳(メタデータ) (2024-01-02T10:42:42Z) - X-Former: In-Memory Acceleration of Transformers [7.194491150684456]
トランスフォーマーは、アテンション機構により、多種多様な自然言語処理(NLP)タスクで大きな成功を収めている。
従来のディープニューラルネットワーク(DNN)アクセラレータは、Transformerを効率的に処理する際の制限に直面している。
非揮発性メモリに基づくインメモリアクセラレータは、この課題に対する効果的な解決策となることを約束する。
我々は、NVMとCMOSの両方の処理要素からなるハイブリッドインメモリハードウェアアクセラレータであるX-Formerを紹介する。
論文 参考訳(メタデータ) (2023-03-13T21:11:54Z) - Optimization of FPGA-based CNN Accelerators Using Metaheuristics [1.854931308524932]
畳み込みニューラルネットワーク(CNN)は、多くの分野における問題解決能力を実証している。
FPGAはCNN推論を加速する関心が高まっている。
FPGAベースのCNNアクセラレータの現在のトレンドは、複数の畳み込み層プロセッサ(CLP)を実装することである。
論文 参考訳(メタデータ) (2022-09-22T18:57:49Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。