論文の概要: Energon: Towards Efficient Acceleration of Transformers Using Dynamic
Sparse Attention
- arxiv url: http://arxiv.org/abs/2110.09310v1
- Date: Mon, 18 Oct 2021 13:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:01:41.709623
- Title: Energon: Towards Efficient Acceleration of Transformers Using Dynamic
Sparse Attention
- Title(参考訳): energon:動的スパース注意を用いた変圧器の効率的な高速化に向けて
- Authors: Zhe Zhou and Junlin Liu and Zhenyu Gu and Guangyu Sun
- Abstract要約: トランスフォーマーモデルは自然言語処理(NLP)に革命をもたらし、コンピュータビジョン(CV)タスクで有望なパフォーマンスを示した。
本研究では,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。
我々はエネルゴンが161Times$と8.4times$ジオ平均スピードアップを達成し、最大104times$と103times$エネルギー還元を達成することを示した。
- 参考スコア(独自算出の注目度): 5.495006023171481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, transformer models have revolutionized Natural Language
Processing (NLP) and also show promising performance on Computer Vision (CV)
tasks. Despite their effectiveness, transformers' attention operations are hard
to accelerate due to complicated data movement and quadratic computational
complexity, prohibiting the real-time inference on resource-constrained
edge-computing platforms.
To tackle this challenge, we propose Energon, an algorithm-architecture
co-design approach that accelerates various transformers using dynamic sparse
attention. With the observation that attention results only depend on a few
important query-key pairs, we propose a multi-round filtering algorithm to
dynamically identify such pairs at runtime. We adopt low bitwidth in each
filtering round and only use high-precision tensors in the attention stage to
reduce overall complexity. By this means, we significantly mitigate the
computational cost with negligible accuracy loss. To enable such an algorithm
with lower latency and better energy-efficiency, we also propose an Energon
co-processor architecture. Elaborated pipelines and specialized optimizations
jointly boost the performance and reduce power consumption. Extensive
experiments on both NLP and CV benchmarks demonstrate that Energon achieves
$161\times$ and $8.4\times$ geo-mean speedup and up to $10^4\times$ and
$10^3\times$ energy reduction compared with Intel Xeon 5220 CPU and NVIDIA V100
GPU. Compared to state-of-the-art attention accelerators SpAtten and $A^3$,
Energon also achieves $1.7\times, 1.25\times$ speedup and $1.6 \times,
1.5\times $ higher energy efficiency.
- Abstract(参考訳): 近年、トランスフォーマーモデルは自然言語処理(nlp)に革命をもたらし、コンピュータビジョン(cv)タスクでも有望な性能を示している。
その効果にもかかわらず、トランスフォーマーの注意操作は複雑なデータ移動と二次計算の複雑さのために加速しにくく、リソース制約のあるエッジコンピューティングプラットフォームでのリアルタイム推論を禁止している。
この課題に対処するために,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。
注意結果がいくつかの重要なクエリキーペアのみに依存するという観測から,実行時にそのペアを動的に識別するマルチラウンドフィルタリングアルゴリズムを提案する。
各フィルタリングラウンドに低ビット幅を採用し、注意段階の高精度テンソルのみを用いて、全体的な複雑さを低減する。
この方法では、計算コストを無視できる精度損失で大幅に軽減する。
より低レイテンシでエネルギー効率のよいアルゴリズムを実現するために,Energonコプロセッサアーキテクチャを提案する。
実験パイプラインと特別な最適化により、性能が向上し、消費電力が減少する。
nlpとcvのベンチマークでの広範な実験により、energonは161\times$と8.4\times$ geo-mean speedup、最大10^4\times$と10^3\times$ energy reductionをintel xeon 5220 cpuとnvidia v100 gpuと比較した。
最先端の注目アクセラレータSpAttenや$A^3$と比較して、Energonは1.7\times、1.25\times$ Speedup、1.6 \times、1.1.5\times$高エネルギー効率を実現している。
関連論文リスト
- P$^2$-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer [8.22044535304182]
ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクでは優れているが、メモリ消費と計算集約性がある。
この制限に対処するため、従来の研究はViT調整量子化アルゴリズムを探索してきたが、浮動小数点スケーリング係数は保たれた。
本稿では,最初のアンダーラインPower-of-Two(PoT)アンダーラインポストトレーニング量子化およびアクセラレーションフレームワークであるemphP$2$-ViTを提案する。
論文 参考訳(メタデータ) (2024-05-30T10:26:36Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with
Transformers [6.0093441900032465]
自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。
従来の作業は、ハードウェアの利用を制限する注意操作に関わる大きな行列を直接操作する。
低オーバーヘッドで実行時にアクティベーションを発生させる新しい動的推論スキームDynaTranを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:17:23Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and
Accelerator Co-Design [42.46121663652989]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて最先端のパフォーマンスを実現している。
しかし、ViTsの自己保持モジュールは依然として大きなボトルネックである。
本稿では,ViTの高速化を目的とした,ViTCoDと呼ばれる専用アルゴリズムとアクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:23Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。