論文の概要: Energon: Towards Efficient Acceleration of Transformers Using Dynamic
Sparse Attention
- arxiv url: http://arxiv.org/abs/2110.09310v1
- Date: Mon, 18 Oct 2021 13:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:01:41.709623
- Title: Energon: Towards Efficient Acceleration of Transformers Using Dynamic
Sparse Attention
- Title(参考訳): energon:動的スパース注意を用いた変圧器の効率的な高速化に向けて
- Authors: Zhe Zhou and Junlin Liu and Zhenyu Gu and Guangyu Sun
- Abstract要約: トランスフォーマーモデルは自然言語処理(NLP)に革命をもたらし、コンピュータビジョン(CV)タスクで有望なパフォーマンスを示した。
本研究では,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。
我々はエネルゴンが161Times$と8.4times$ジオ平均スピードアップを達成し、最大104times$と103times$エネルギー還元を達成することを示した。
- 参考スコア(独自算出の注目度): 5.495006023171481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, transformer models have revolutionized Natural Language
Processing (NLP) and also show promising performance on Computer Vision (CV)
tasks. Despite their effectiveness, transformers' attention operations are hard
to accelerate due to complicated data movement and quadratic computational
complexity, prohibiting the real-time inference on resource-constrained
edge-computing platforms.
To tackle this challenge, we propose Energon, an algorithm-architecture
co-design approach that accelerates various transformers using dynamic sparse
attention. With the observation that attention results only depend on a few
important query-key pairs, we propose a multi-round filtering algorithm to
dynamically identify such pairs at runtime. We adopt low bitwidth in each
filtering round and only use high-precision tensors in the attention stage to
reduce overall complexity. By this means, we significantly mitigate the
computational cost with negligible accuracy loss. To enable such an algorithm
with lower latency and better energy-efficiency, we also propose an Energon
co-processor architecture. Elaborated pipelines and specialized optimizations
jointly boost the performance and reduce power consumption. Extensive
experiments on both NLP and CV benchmarks demonstrate that Energon achieves
$161\times$ and $8.4\times$ geo-mean speedup and up to $10^4\times$ and
$10^3\times$ energy reduction compared with Intel Xeon 5220 CPU and NVIDIA V100
GPU. Compared to state-of-the-art attention accelerators SpAtten and $A^3$,
Energon also achieves $1.7\times, 1.25\times$ speedup and $1.6 \times,
1.5\times $ higher energy efficiency.
- Abstract(参考訳): 近年、トランスフォーマーモデルは自然言語処理(nlp)に革命をもたらし、コンピュータビジョン(cv)タスクでも有望な性能を示している。
その効果にもかかわらず、トランスフォーマーの注意操作は複雑なデータ移動と二次計算の複雑さのために加速しにくく、リソース制約のあるエッジコンピューティングプラットフォームでのリアルタイム推論を禁止している。
この課題に対処するために,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。
注意結果がいくつかの重要なクエリキーペアのみに依存するという観測から,実行時にそのペアを動的に識別するマルチラウンドフィルタリングアルゴリズムを提案する。
各フィルタリングラウンドに低ビット幅を採用し、注意段階の高精度テンソルのみを用いて、全体的な複雑さを低減する。
この方法では、計算コストを無視できる精度損失で大幅に軽減する。
より低レイテンシでエネルギー効率のよいアルゴリズムを実現するために,Energonコプロセッサアーキテクチャを提案する。
実験パイプラインと特別な最適化により、性能が向上し、消費電力が減少する。
nlpとcvのベンチマークでの広範な実験により、energonは161\times$と8.4\times$ geo-mean speedup、最大10^4\times$と10^3\times$ energy reductionをintel xeon 5220 cpuとnvidia v100 gpuと比較した。
最先端の注目アクセラレータSpAttenや$A^3$と比較して、Energonは1.7\times、1.25\times$ Speedup、1.6 \times、1.1.5\times$高エネルギー効率を実現している。
関連論文リスト
- Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。
我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文 参考訳(メタデータ) (2025-02-03T19:24:01Z) - A Runtime-Adaptive Transformer Neural Network Accelerator on FPGAs [0.0]
ADAPTORは、FPGA上のトランスフォーマーエンコーダとデコーダの高密度行列計算のためのランタイム適応型アクセラレータである。
FPGAプラットフォームにリソースを分散するための効率的な行列タイリングが組み込まれている。
最新のFPGAベースのアクセラレータと比べて1.7~2.25$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2024-11-27T08:53:19Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with
Transformers [6.0093441900032465]
自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。
従来の作業は、ハードウェアの利用を制限する注意操作に関わる大きな行列を直接操作する。
低オーバーヘッドで実行時にアクティベーションを発生させる新しい動的推論スキームDynaTranを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:17:23Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and
Accelerator Co-Design [42.46121663652989]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて最先端のパフォーマンスを実現している。
しかし、ViTsの自己保持モジュールは依然として大きなボトルネックである。
本稿では,ViTの高速化を目的とした,ViTCoDと呼ばれる専用アルゴリズムとアクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:23Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。