論文の概要: AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with
Transformers
- arxiv url: http://arxiv.org/abs/2302.14705v2
- Date: Mon, 1 May 2023 16:21:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 18:24:57.988273
- Title: AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with
Transformers
- Title(参考訳): acceltran: トランスフォーマーを用いた動的推論のためのスパーシティアウェアアクセラレーション
- Authors: Shikhar Tuli and Niraj K. Jha
- Abstract要約: 自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。
従来の作業は、ハードウェアの利用を制限する注意操作に関わる大きな行列を直接操作する。
低オーバーヘッドで実行時にアクティベーションを発生させる新しい動的推論スキームDynaTranを提案する。
- 参考スコア(独自算出の注目度): 6.0093441900032465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-attention-based transformer models have achieved tremendous success in
the domain of natural language processing. Despite their efficacy, accelerating
the transformer is challenging due to its quadratic computational complexity
and large activation sizes. Existing transformer accelerators attempt to prune
its tokens to reduce memory access, albeit with high compute overheads.
Moreover, previous works directly operate on large matrices involved in the
attention operation, which limits hardware utilization. In order to address
these challenges, this work proposes a novel dynamic inference scheme,
DynaTran, which prunes activations at runtime with low overhead, substantially
reducing the number of ineffectual operations. This improves the throughput of
transformer inference. We further propose tiling the matrices in transformer
operations along with diverse dataflows to improve data reuse, thus enabling
higher energy efficiency. To effectively implement these methods, we propose
AccelTran, a novel accelerator architecture for transformers. Extensive
experiments with different models and benchmarks demonstrate that DynaTran
achieves higher accuracy than the state-of-the-art top-k hardware-aware pruning
strategy while attaining up to 1.2$\times$ higher sparsity. One of our proposed
accelerators, AccelTran-Edge, achieves 330K$\times$ higher throughput with
93K$\times$ lower energy requirement when compared to a Raspberry Pi device. On
the other hand, AccelTran-Server achieves 5.73$\times$ higher throughput and
3.69$\times$ lower energy consumption compared to the state-of-the-art
transformer co-processor, Energon. The simulation source code is available at
https://github.com/jha-lab/acceltran.
- Abstract(参考訳): 自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。
有効性にもかかわらず、この変換器の高速化は2次計算の複雑さと大きなアクティベーションサイズのために困難である。
既存のトランスフォーマーアクセラレータは、高い計算オーバーヘッドがあるにもかかわらず、メモリアクセスを減らすためにトークンを創り出そうとする。
さらに,従来の作業は,ハードウェア利用を制限した注意操作に関わる大きな行列を直接操作する。
これらの課題に対処するため、本研究では、実行時に低オーバーヘッドでアクティベーションを回避し、事実上の操作数を削減する新しい動的推論スキームdynatranを提案する。
これにより、トランスフォーマー推論のスループットが向上する。
さらに,データ再利用を改善するために,変圧器操作の行列を多種多様なデータフローとともにタイリングすることを提案する。
そこで本研究では,トランスフォーマーのための新しい加速器アーキテクチャであるacceltranを提案する。
異なるモデルとベンチマークによる大規模な実験により、DynaTranは最先端のハードウェア対応プルーニング戦略よりも高い精度を達成し、最大1.2$\times$高頻度を実現している。
提案しているアクセラレータの1つであるacceltran-edgeは、raspberry piデバイスと比較して330k$\times$高いスループットと93k$\times$低いエネルギー要求を実現しています。
一方、AccelTran-Serverは5.73$\times$高スループット、3.69$\times$低消費電力を実現している。
シミュレーションソースコードはhttps://github.com/jha-lab/acceltranで入手できる。
関連論文リスト
- Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。
私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。
実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T03:19:18Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Energon: Towards Efficient Acceleration of Transformers Using Dynamic
Sparse Attention [5.495006023171481]
トランスフォーマーモデルは自然言語処理(NLP)に革命をもたらし、コンピュータビジョン(CV)タスクで有望なパフォーマンスを示した。
本研究では,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。
我々はエネルゴンが161Times$と8.4times$ジオ平均スピードアップを達成し、最大104times$と103times$エネルギー還元を達成することを示した。
論文 参考訳(メタデータ) (2021-10-18T13:42:43Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - The Cascade Transformer: an Application for Efficient Answer Sentence
Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。
現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文 参考訳(メタデータ) (2020-05-05T23:32:01Z) - Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。
BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。
計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文 参考訳(メタデータ) (2020-02-14T18:41:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。