論文の概要: Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design
- arxiv url: http://arxiv.org/abs/2209.09570v1
- Date: Tue, 20 Sep 2022 09:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 19:39:28.560253
- Title: Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design
- Title(参考訳): ハードウェアとアルゴリズム共設計による注意型nnsのための適応型バタフライ加速器
- Authors: Hongxiang Fan, Thomas Chau, Stylianos I. Venieris, Royson Lee,
Alexandros Kouris, Wayne Luk, Nicholas D. Lane, Mohamed S. Abdelfattah
- Abstract要約: 多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
- 参考スコア(独自算出の注目度): 66.39546326221176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based neural networks have become pervasive in many AI tasks.
Despite their excellent algorithmic performance, the use of the attention
mechanism and feed-forward network (FFN) demands excessive computational and
memory resources, which often compromises their hardware performance. Although
various sparse variants have been introduced, most approaches only focus on
mitigating the quadratic scaling of attention on the algorithm level, without
explicitly considering the efficiency of mapping their methods on real hardware
designs. Furthermore, most efforts only focus on either the attention mechanism
or the FFNs but without jointly optimizing both parts, causing most of the
current designs to lack scalability when dealing with different input lengths.
This paper systematically considers the sparsity patterns in different variants
from a hardware perspective. On the algorithmic level, we propose FABNet, a
hardware-friendly variant that adopts a unified butterfly sparsity pattern to
approximate both the attention mechanism and the FFNs. On the hardware level, a
novel adaptable butterfly accelerator is proposed that can be configured at
runtime via dedicated hardware control to accelerate different butterfly layers
using a single unified hardware engine. On the Long-Range-Arena dataset, FABNet
achieves the same accuracy as the vanilla Transformer while reducing the amount
of computation by 10 to 66 times and the number of parameters 2 to 22 times. By
jointly optimizing the algorithm and hardware, our FPGA-based butterfly
accelerator achieves 14.2 to 23.2 times speedup over state-of-the-art
accelerators normalized to the same computational budget. Compared with
optimized CPU and GPU designs on Raspberry Pi 4 and Jetson Nano, our system is
up to 273.8 and 15.1 times faster under the same power budget.
- Abstract(参考訳): 注意に基づくニューラルネットワークは、多くのaiタスクで普及している。
その優れたアルゴリズム性能にもかかわらず、アテンション機構とフィードフォワードネットワーク(FFN)の使用は過剰な計算とメモリ資源を必要とし、ハードウェアの性能を損なう。
様々なスパース変種が導入されたが、ほとんどのアプローチは、実際のハードウェア設計にメソッドをマッピングする効率を明示的に考慮することなく、アルゴリズムレベルでの注意の2次スケーリングを緩和することのみに焦点を当てている。
さらに、ほとんどの取り組みは注意機構またはFFNにのみ焦点をあてるが、両方の部品を共同最適化することなく、現在の設計では異なる入力長を扱う際にスケーラビリティが欠如している。
本稿では,ハードウェアの観点から異なる変種における空間パターンを体系的に考察する。
アルゴリズムレベルでは,アテンション機構とffnの両方を近似するために,統一バタフライスパーシティパターンを採用したハードウェアフレンドリーなfabnetを提案する。
ハードウェアレベルでは、単一の統一ハードウェアエンジンを用いて異なるバタフライ層を加速するために、専用のハードウェア制御を介して実行時に設定できる新しい適応型バタフライ加速器が提案されている。
Long-Range-Arenaデータセットでは、FABNetはバニラ変換器と同じ精度で計算量を10倍から66倍、パラメータ数を2倍から22倍に削減する。
アルゴリズムとハードウェアを共同で最適化することにより、FPGAベースのバタフライアクセラレータは、同じ計算予算に正規化された最先端アクセラレータよりも14.2倍から23.2倍のスピードアップを達成する。
Raspberry Pi 4とJetson Nanoで最適化されたCPUとGPUの設計と比較して、我々のシステムは同じ電力予算で最大273.8と15.1倍高速である。
関連論文リスト
- HAPM -- Hardware Aware Pruning Method for CNN hardware accelerators in resource constrained devices [44.99833362998488]
本研究はFPGAデバイスに実装可能な汎用ハードウェアアーキテクチャを提案する。
設計の推論速度は、リソース制約の異なるFPGAデバイス上で評価される。
ハードウェア対応プルーニングアルゴリズムは,標準アルゴリズムを用いたネットワークプルーニングに比べて,推論時間45%の顕著な改善を実現していることを示す。
論文 参考訳(メタデータ) (2024-08-26T07:27:12Z) - SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - All-to-all reconfigurability with sparse and higher-order Ising machines [0.0]
オール・ツー・オールのネットワーク機能をエミュレートする多重アーキテクチャを導入する。
適応並列テンパリングアルゴリズムの実行は、競合するアルゴリズムと事前ファクターの利点を示す。
pビットIMのスケールされた磁気バージョンは、汎用最適化のための最先端技術よりも桁違いに改善される可能性がある。
論文 参考訳(メタデータ) (2023-11-21T20:27:02Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。
本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。
このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文 参考訳(メタデータ) (2021-09-16T10:59:33Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - SPEC2: SPECtral SParsE CNN Accelerator on FPGAs [31.31419913907224]
我々は、スペクトルCNNを練習し、加速する最初の研究であるSPEC2を提案する。
スパースカーネルへの効率的なランダムアクセスが可能なFPGA上に最適化されたパイプラインアーキテクチャを設計する。
得られたアクセラレータは、VGG16の最先端FPGA実装と比較して最大24倍のスループットを実現している。
論文 参考訳(メタデータ) (2019-10-16T23:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。