論文の概要: ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized
Transformers
- arxiv url: http://arxiv.org/abs/2307.03493v1
- Date: Fri, 7 Jul 2023 10:05:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 12:48:07.748588
- Title: ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized
Transformers
- Title(参考訳): ITA:量子変換器のエネルギー効率向上とソフトマックス加速器
- Authors: Gamze \.Islamo\u{g}lu (1), Moritz Scherer (1), Gianna Paulin (1), Tim
Fischer (1), Victor J.B. Jung (1), Angelo Garofalo (1 and 2), Luca Benini (1
and 2) ((1) ETH Z\"urich, (2) University of Bologna)
- Abstract要約: トランスフォーマーネットワークは、自然言語処理タスクの最先端のアプローチとして登場した。
トランスモデルの効率的なハードウェアアクセラレーションは、高い演算強度、大きなメモリ要件、複雑なデータフロー依存性のために、新たな課題をもたらす。
組込みシステムにおける効率的な推論を目的としたトランスフォーマーおよび関連モデルのための新しいアクセラレータアーキテクチャ ITA を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer networks have emerged as the state-of-the-art approach for
natural language processing tasks and are gaining popularity in other domains
such as computer vision and audio processing. However, the efficient hardware
acceleration of transformer models poses new challenges due to their high
arithmetic intensities, large memory requirements, and complex dataflow
dependencies. In this work, we propose ITA, a novel accelerator architecture
for transformers and related models that targets efficient inference on
embedded systems by exploiting 8-bit quantization and an innovative softmax
implementation that operates exclusively on integer values. By computing
on-the-fly in streaming mode, our softmax implementation minimizes data
movement and energy consumption. ITA achieves competitive energy efficiency
with respect to state-of-the-art transformer accelerators with 16.9 TOPS/W,
while outperforming them in area efficiency with 5.93 TOPS/mm$^2$ in 22 nm
fully-depleted silicon-on-insulator technology at 0.8 V.
- Abstract(参考訳): トランスフォーマーネットワークは自然言語処理タスクの最先端のアプローチとして登場し、コンピュータビジョンやオーディオ処理など他の領域でも人気がある。
しかしながら、トランスフォーマーモデルの効率的なハードウェアアクセラレーションは、高い算術インテンシティ、大きなメモリ要件、複雑なデータフロー依存性により、新たな課題をもたらす。
本研究では、8ビット量子化と整数値のみで動作する革新的なソフトマックス実装を利用して、組込みシステムにおける効率的な推論を目標とするトランスフォーマーおよび関連モデルのための新しいアクセラレータアーキテクチャであるITAを提案する。
ストリーミングモードでのオンザフライ計算により,データ移動とエネルギー消費を最小限に抑える。
ITAは16.9TOPS/Wの最先端の変圧器加速器に対して競争エネルギー効率を達成し、面積効率は5.93TOPS/mm$^2$ in 22 nmの完全分解シリコンオン絶縁体技術で0.8Vで上回っている。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - ARTEMIS: A Mixed Analog-Stochastic In-DRAM Accelerator for Transformer Neural Networks [2.9699290794642366]
ARTEMISは、トランスフォーマーモデルのための混合アナログ確率型インDRAMアクセラレータである。
解析の結果、ARTEMISはGPU、TPU、CPU、最先端のPIMトランスハードウェアアクセラレータと比較して、少なくとも3.0倍のスピードアップ、1.8倍のエネルギー、そして1.9倍のエネルギー効率を示した。
論文 参考訳(メタデータ) (2024-07-17T15:08:14Z) - RACE-IT: A Reconfigurable Analog CAM-Crossbar Engine for In-Memory
Transformer Acceleration [21.196696191478885]
Transformer ModelはDeep Neural Networks(DNN)の最先端を表現している。
これらのモデルを処理するには、かなりの計算資源が必要で、結果としてかなりのメモリフットプリントが要求される。
本稿では,トランスフォーマ内で様々な非MVM操作を行うことのできる新しいAnalog Content Addressable Memory(ACAM)構造を提案する。
論文 参考訳(メタデータ) (2023-11-29T22:45:39Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - AccelTran: A Sparsity-Aware Accelerator for Dynamic Inference with
Transformers [6.0093441900032465]
自己注意に基づくトランスフォーマーモデルは自然言語処理の分野で大きな成功を収めた。
従来の作業は、ハードウェアの利用を制限する注意操作に関わる大きな行列を直接操作する。
低オーバーヘッドで実行時にアクティベーションを発生させる新しい動的推論スキームDynaTranを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:17:23Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。