Fugu-MT 論文翻訳(概要): Energon: Towards Efficient Acceleration of Transformers Using Dynamic Sparse Attention

論文の概要: Energon: Towards Efficient Acceleration of Transformers Using Dynamic Sparse Attention

arxiv url: http://arxiv.org/abs/2110.09310v1
Date: Mon, 18 Oct 2021 13:42:43 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-19 15:01:41.709623
Title: Energon: Towards Efficient Acceleration of Transformers Using Dynamic Sparse Attention
Title（参考訳）: energon:動的スパース注意を用いた変圧器の効率的な高速化に向けて
Authors: Zhe Zhou and Junlin Liu and Zhenyu Gu and Guangyu Sun
Abstract要約: トランスフォーマーモデルは自然言語処理(NLP)に革命をもたらし、コンピュータビジョン(CV)タスクで有望なパフォーマンスを示した。本研究では,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。我々はエネルゴンが161Times$と8.4times$ジオ平均スピードアップを達成し、最大104times$と103times$エネルギー還元を達成することを示した。
参考スコア（独自算出の注目度）: 5.495006023171481
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, transformer models have revolutionized Natural Language Processing (NLP) and also show promising performance on Computer Vision (CV) tasks. Despite their effectiveness, transformers' attention operations are hard to accelerate due to complicated data movement and quadratic computational complexity, prohibiting the real-time inference on resource-constrained edge-computing platforms. To tackle this challenge, we propose Energon, an algorithm-architecture co-design approach that accelerates various transformers using dynamic sparse attention. With the observation that attention results only depend on a few important query-key pairs, we propose a multi-round filtering algorithm to dynamically identify such pairs at runtime. We adopt low bitwidth in each filtering round and only use high-precision tensors in the attention stage to reduce overall complexity. By this means, we significantly mitigate the computational cost with negligible accuracy loss. To enable such an algorithm with lower latency and better energy-efficiency, we also propose an Energon co-processor architecture. Elaborated pipelines and specialized optimizations jointly boost the performance and reduce power consumption. Extensive experiments on both NLP and CV benchmarks demonstrate that Energon achieves $161\times$ and $8.4\times$ geo-mean speedup and up to $10^4\times$ and $10^3\times$ energy reduction compared with Intel Xeon 5220 CPU and NVIDIA V100 GPU. Compared to state-of-the-art attention accelerators SpAtten and $A^3$, Energon also achieves $1.7\times, 1.25\times$ speedup and $1.6 \times, 1.5\times $ higher energy efficiency.
Abstract（参考訳）: 近年、トランスフォーマーモデルは自然言語処理(nlp)に革命をもたらし、コンピュータビジョン(cv)タスクでも有望な性能を示している。その効果にもかかわらず、トランスフォーマーの注意操作は複雑なデータ移動と二次計算の複雑さのために加速しにくく、リソース制約のあるエッジコンピューティングプラットフォームでのリアルタイム推論を禁止している。この課題に対処するために,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。注意結果がいくつかの重要なクエリキーペアのみに依存するという観測から,実行時にそのペアを動的に識別するマルチラウンドフィルタリングアルゴリズムを提案する。各フィルタリングラウンドに低ビット幅を採用し、注意段階の高精度テンソルのみを用いて、全体的な複雑さを低減する。この方法では、計算コストを無視できる精度損失で大幅に軽減する。より低レイテンシでエネルギー効率のよいアルゴリズムを実現するために,Energonコプロセッサアーキテクチャを提案する。実験パイプラインと特別な最適化により、性能が向上し、消費電力が減少する。 nlpとcvのベンチマークでの広範な実験により、energonは161\times$と8.4\times$ geo-mean speedup、最大10^4\times$と10^3\times$ energy reductionをintel xeon 5220 cpuとnvidia v100 gpuと比較した。最先端の注目アクセラレータSpAttenや$A^3$と比較して、Energonは1.7\times、1.25\times$ Speedup、1.6 \times、1.1.5\times$高エネルギー効率を実現している。

関連論文リスト

Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文参考訳（メタデータ） (2025-04-17T12:52:08Z)
Hamming Attention Distillation: Binarizing Keys and Queries for Efficient Long-Context Transformers [18.469378618426294]
本稿では,ハミング注意蒸留(HAD)について紹介する。これは注意機構のキーとクエリをバイナライズして,大幅な効率向上を実現するフレームワークである。我々は,HADをカスタムハードウェアシミュレーションに実装し,標準的なハードウェア実装と比較して優れた性能特性を示す。
論文参考訳（メタデータ） (2025-02-03T19:24:01Z)
A Runtime-Adaptive Transformer Neural Network Accelerator on FPGAs [0.0]
ADAPTORは、FPGA上のトランスフォーマーエンコーダとデコーダの高密度行列計算のためのランタイム適応型アクセラレータである。 FPGAプラットフォームにリソースを分散するための効率的な行列タイリングが組み込まれている。最新のFPGAベースのアクセラレータと比べて1.7～2.25$times$のスピードアップを実現している。
論文参考訳（メタデータ） (2024-11-27T08:53:19Z)
P$^2$-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer [8.22044535304182]
ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクでは優れているが、メモリ消費と計算集約性がある。この制限に対処するため、従来の研究はViT調整量子化アルゴリズムを探索してきたが、浮動小数点スケーリング係数は保たれた。本稿では,最初のアンダーラインPower-of-Two(PoT)アンダーラインポストトレーニング量子化およびアクセラレーションフレームワークであるemphP$2$-ViTを提案する。
論文参考訳（メタデータ） (2024-05-30T10:26:36Z)
ShiftAddViT: Mixture of Multiplication Primitives Towards Efficient Vision Transformer [6.473688838974095]
本稿では,GPU上でのエンドツーエンドの推論高速化を実現するために,$textbfShiftAddViT$と呼ばれる新たな乗法モデルを提案する。様々な2D/3D視覚タスクの実験は、提案したShiftAddViTの有効性を一貫して検証する。
論文参考訳（メタデータ） (2023-06-10T13:53:41Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with Transformers [6.0093441900032465]
自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。従来の作業は、ハードウェアの利用を制限する注意操作に関わる大きな行列を直接操作する。低オーバーヘッドで実行時にアクティベーションを発生させる新しい動的推論スキームDynaTranを提案する。
論文参考訳（メタデータ） (2023-02-28T16:17:23Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and Accelerator Co-Design [42.46121663652989]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて最先端のパフォーマンスを実現している。しかし、ViTsの自己保持モジュールは依然として大きなボトルネックである。本稿では,ViTの高速化を目的とした,ViTCoDと呼ばれる専用アルゴリズムとアクセラレータ共設計フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-18T04:07:23Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文参考訳（メタデータ） (2022-08-12T04:51:49Z)
A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文参考訳（メタデータ） (2022-08-07T05:48:38Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。出力トークンの数を正確に予測し、隠れた変数を抽出する。 10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文参考訳（メタデータ） (2022-06-16T17:24:14Z)
What Dense Graph Do You Need for Self-Attention? [73.82686008622596]
我々はハイパーキューブにおけるトークンインタラクションをモデル化し、バニラ変換器と同等あるいはそれ以上の結果を示すスパーストランスフォーマーHypercube Transformerを提案する。様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をうまく行いました。
論文参考訳（メタデータ） (2022-05-27T14:36:55Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文参考訳（メタデータ） (2021-03-08T03:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。