Fugu-MT 論文翻訳(概要): AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with Transformers

論文の概要: AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with Transformers

arxiv url: http://arxiv.org/abs/2302.14705v2
Date: Mon, 1 May 2023 16:21:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-02 18:24:57.988273
Title: AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with Transformers
Title（参考訳）: acceltran: トランスフォーマーを用いた動的推論のためのスパーシティアウェアアクセラレーション
Authors: Shikhar Tuli and Niraj K. Jha
Abstract要約: 自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。従来の作業は、ハードウェアの利用を制限する注意操作に関わる大きな行列を直接操作する。低オーバーヘッドで実行時にアクティベーションを発生させる新しい動的推論スキームDynaTranを提案する。
参考スコア（独自算出の注目度）: 6.0093441900032465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-attention-based transformer models have achieved tremendous success in the domain of natural language processing. Despite their efficacy, accelerating the transformer is challenging due to its quadratic computational complexity and large activation sizes. Existing transformer accelerators attempt to prune its tokens to reduce memory access, albeit with high compute overheads. Moreover, previous works directly operate on large matrices involved in the attention operation, which limits hardware utilization. In order to address these challenges, this work proposes a novel dynamic inference scheme, DynaTran, which prunes activations at runtime with low overhead, substantially reducing the number of ineffectual operations. This improves the throughput of transformer inference. We further propose tiling the matrices in transformer operations along with diverse dataflows to improve data reuse, thus enabling higher energy efficiency. To effectively implement these methods, we propose AccelTran, a novel accelerator architecture for transformers. Extensive experiments with different models and benchmarks demonstrate that DynaTran achieves higher accuracy than the state-of-the-art top-k hardware-aware pruning strategy while attaining up to 1.2$\times$ higher sparsity. One of our proposed accelerators, AccelTran-Edge, achieves 330K$\times$ higher throughput with 93K$\times$ lower energy requirement when compared to a Raspberry Pi device. On the other hand, AccelTran-Server achieves 5.73$\times$ higher throughput and 3.69$\times$ lower energy consumption compared to the state-of-the-art transformer co-processor, Energon. The simulation source code is available at https://github.com/jha-lab/acceltran.
Abstract（参考訳）: 自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。有効性にもかかわらず、この変換器の高速化は2次計算の複雑さと大きなアクティベーションサイズのために困難である。既存のトランスフォーマーアクセラレータは、高い計算オーバーヘッドがあるにもかかわらず、メモリアクセスを減らすためにトークンを創り出そうとする。さらに,従来の作業は,ハードウェア利用を制限した注意操作に関わる大きな行列を直接操作する。これらの課題に対処するため、本研究では、実行時に低オーバーヘッドでアクティベーションを回避し、事実上の操作数を削減する新しい動的推論スキームdynatranを提案する。これにより、トランスフォーマー推論のスループットが向上する。さらに,データ再利用を改善するために,変圧器操作の行列を多種多様なデータフローとともにタイリングすることを提案する。そこで本研究では,トランスフォーマーのための新しい加速器アーキテクチャであるacceltranを提案する。異なるモデルとベンチマークによる大規模な実験により、DynaTranは最先端のハードウェア対応プルーニング戦略よりも高い精度を達成し、最大1.2$\times$高頻度を実現している。提案しているアクセラレータの1つであるacceltran-edgeは、raspberry piデバイスと比較して330k$\times$高いスループットと93k$\times$低いエネルギー要求を実現しています。一方、AccelTran-Serverは5.73$\times$高スループット、3.69$\times$低消費電力を実現している。シミュレーションソースコードはhttps://github.com/jha-lab/acceltranで入手できる。

関連論文リスト

Spark Transformer: Reactivating Sparsity in FFN and Attention [63.20677098823873]
本稿では, FFNとアテンション機構の両方において, 高レベルのアクティベーション間隔を実現する新しいアーキテクチャであるSpark Transformerを紹介する。これによりFLOPの2.5倍の削減が可能となり、CPUでは1.79倍、GPUでは1.40倍となる。
論文参考訳（メタデータ） (2025-06-07T03:51:13Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Accelerator-driven Data Arrangement to Minimize Transformers Run-time on Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文参考訳（メタデータ） (2023-12-20T13:01:25Z)
ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized Transformers [13.177523799771635]
トランスフォーマーネットワークは、自然言語処理タスクの最先端のアプローチとして登場した。トランスモデルの効率的なハードウェアアクセラレーションは、高い演算強度、大きなメモリ要件、複雑なデータフロー依存性のために、新たな課題をもたらす。組込みシステムにおける効率的な推論を目的としたトランスフォーマーおよび関連モデルのための新しいアクセラレータアーキテクチャ ITA を提案する。
論文参考訳（メタデータ） (2023-07-07T10:05:38Z)
CageViT: Convolutional Activation Guided Efficient Vision Transformer [90.69578999760206]
本稿では,CageViTと呼ばれる効率的な視覚変換器を提案する。私たちのCageViTは、現在のTransformersとは違って、新しいエンコーダを使用して、再配置されたトークンを処理する。実験の結果,提案したCageViTは最新の最先端のバックボーンよりも効率の面で大きな差があることがわかった。
論文参考訳（メタデータ） (2023-05-17T03:19:18Z)
TransCODE: Co-design of Transformers and Accelerators for Efficient Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文参考訳（メタデータ） (2023-03-27T02:45:18Z)
Efficient Attention-free Video Shift Transformers [56.87581500474093]
本稿では,効率的な映像認識の問題に取り組む。ビデオトランスは、最近、効率(トップ1精度対FLOP)のスペクトルを支配している。我々はビデオ領域における定式化を拡張してビデオアフィンシフト変換器を構築する。
論文参考訳（メタデータ） (2022-08-23T17:48:29Z)
An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文参考訳（メタデータ） (2022-08-12T04:51:49Z)
Energon: Towards Efficient Acceleration of Transformers Using Dynamic Sparse Attention [5.495006023171481]
トランスフォーマーモデルは自然言語処理(NLP)に革命をもたらし、コンピュータビジョン(CV)タスクで有望なパフォーマンスを示した。本研究では,動的スパースアテンションを用いて様々なトランスフォーマーを高速化するアルゴリズムアーキテクチャ共設計手法であるEnergonを提案する。我々はエネルゴンが161Times$と8.4times$ジオ平均スピードアップを達成し、最大104times$と103times$エネルギー還元を達成することを示した。
論文参考訳（メタデータ） (2021-10-18T13:42:43Z)
Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-06-30T09:48:30Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
Easy and Efficient Transformer : Scalable Inference Solution For large NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。 EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文参考訳（メタデータ） (2021-04-26T11:00:56Z)
TransMOT: Spatial-Temporal Graph Transformer for Multiple Object Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。 TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文参考訳（メタデータ） (2021-04-01T01:49:05Z)
The Cascade Transformer: an Application for Efficient Answer Sentence Selection [116.09532365093659]
本稿では,変圧器をベースとしたモデルのカスケード化手法であるカスケード変換器について紹介する。現状の変圧器モデルと比較すると,提案手法は精度にほとんど影響を与えずに計算量を37%削減する。
論文参考訳（メタデータ） (2020-05-05T23:32:01Z)
Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。 BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文参考訳（メタデータ） (2020-02-14T18:41:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。