論文の概要: A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining
- arxiv url: http://arxiv.org/abs/2208.03646v1
- Date: Sun, 7 Aug 2022 05:48:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 14:19:09.203124
- Title: A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining
- Title(参考訳): Sparse Attention と Dynamic Pipelining によるFPGA上の変圧器の長長適応アルゴリズム-ハードウェア共設計
- Authors: Hongwu Peng, Shaoyi Huang, Shiyang Chen, Bingbing Li, Tong Geng, Ang
Li, Weiwen Jiang, Wujie Wen, Jinbo Bi, Hang Liu and Caiwen Ding
- Abstract要約: 本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
- 参考スコア(独自算出の注目度): 28.336502115532905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are considered one of the most important deep learning models
since 2018, in part because it establishes state-of-the-art (SOTA) records and
could potentially replace existing Deep Neural Networks (DNNs). Despite the
remarkable triumphs, the prolonged turnaround time of Transformer models is a
widely recognized roadblock. The variety of sequence lengths imposes additional
computing overhead where inputs need to be zero-padded to the maximum sentence
length in the batch to accommodate the parallel computing platforms. This paper
targets the field-programmable gate array (FPGA) and proposes a coherent
sequence length adaptive algorithm-hardware co-design for Transformer
acceleration. Particularly, we develop a hardware-friendly sparse attention
operator and a length-aware hardware resource scheduling algorithm. The
proposed sparse attention operator brings the complexity of attention-based
models down to linear complexity and alleviates the off-chip memory traffic.
The proposed length-aware resource hardware scheduling algorithm dynamically
allocates the hardware resources to fill up the pipeline slots and eliminates
bubbles for NLP tasks. Experiments show that our design has very small accuracy
loss and has 80.2 $\times$ and 2.6 $\times$ speedup compared to CPU and GPU
implementation, and 4 $\times$ higher energy efficiency than state-of-the-art
GPU accelerator optimized via CUBLAS GEMM.
- Abstract(参考訳): 2018年以降、トランスフォーマーは最先端(SOTA)レコードを確立し、既存のDeep Neural Networks(DNN)を置き換える可能性があるため、最も重要なディープラーニングモデルのひとつと考えられている。
驚くべき勝利にもかかわらず、トランスフォーマーモデルの長いターンアラウンドタイムは広く認識されている道路ブロックである。
シーケンス長の多様性は、並列コンピューティングプラットフォームに対応するために、バッチ内の最大文長に入力をゼロパッドする必要がある場合に、追加の計算オーバーヘッドを課す。
本稿では,フィールドプログラマブルゲートアレイ(FPGA)を対象とし,トランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応アルゴリズム-ハードウェア共設計を提案する。
特に,ハードウェアフレンドリーなスパースアテンション演算子と,ハードウェアリソーススケジューリングアルゴリズムを開発した。
提案したスパースアテンション演算子は、注意に基づくモデルの複雑さを線形複雑化し、オフチップメモリトラフィックを軽減する。
提案アルゴリズムは,パイプラインスロットを埋めるためにハードウェアリソースを動的に割り当て,NLPタスクのバブルを除去する。
実験によると、我々の設計は、非常に精度の損失が小さく、cpuとgpuの実装と比較して80.2$\times$と2.6$\times$ speedupがあり、cublas gemmによって最適化された最先端gpuアクセラレータよりも4$\times$高いエネルギー効率を示している。
関連論文リスト
- SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Scaling Quantum Approximate Optimization on Near-term Hardware [49.94954584453379]
我々は、様々なレベルの接続性を持つハードウェアアーキテクチャのための最適化回路により、期待されるリソース要求のスケーリングを定量化する。
問題の大きさと問題グラフの次数で指数関数的に増大する。
これらの問題は、ハードウェア接続性の向上や、より少ない回路層で高い性能を達成するQAOAの変更によって緩和される可能性がある。
論文 参考訳(メタデータ) (2022-01-06T21:02:30Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - A fully pipelined FPGA accelerator for scale invariant feature transform
keypoint descriptor matching, [0.0]
SIFTキーポイント記述子マッチングのための完全パイプラインハードウェアアクセラレータアーキテクチャを設計する。
提案するハードウェアアーキテクチャは、完全にパイプライン化された実装に必要なメモリ帯域を適切に処理することができる。
私たちのハードウェア実装は、同等のソフトウェアアプローチの15.7倍高速です。
論文 参考訳(メタデータ) (2020-12-17T15:29:41Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - TurboTransformers: An Efficient GPU Serving System For Transformer
Models [17.4637724940437]
TurboTransformersシステムは、コンピューティングランタイムとサービスフレームワークで構成されている。
GPUベースのバッチ削減操作に対して,効率的な並列アルゴリズムを提案する。
メモリ割り当てアルゴリズムは可変長入力状況向けに設計されている。
新しいバッチスケジューラを備えたサービスフレームワークは、可変長要求に対して最適なスループットを実現する。
論文 参考訳(メタデータ) (2020-10-09T07:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。