論文の概要: An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers
- arxiv url: http://arxiv.org/abs/2208.06118v1
- Date: Fri, 12 Aug 2022 04:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:41:00.184061
- Title: An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers
- Title(参考訳): n:mスパーストランスフォーマーを高速化するアルゴリズムハードウェア共最適化フレームワーク
- Authors: Chao Fang, Aojun Zhou, Zhongfeng Wang
- Abstract要約: 一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
- 参考スコア(独自算出の注目度): 11.811907838840712
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Transformer has been an indispensable staple in deep learning. However,
for real-life applications, it is very challenging to deploy efficient
Transformers due to immense parameters and operations of models. To relieve
this burden, exploiting sparsity is an effective approach to accelerate
Transformers. Newly emerging Ampere GPUs leverage a 2:4 sparsity pattern to
achieve model acceleration, while it can hardly meet the diverse algorithm and
hardware constraints when deploying models. By contrast, we propose an
algorithm-hardware co-optimized framework to flexibly and efficiently
accelerate Transformers by utilizing general N:M sparsity patterns. (1) From
algorithm perspective, we propose a sparsity inheritance mechanism along with
an inherited dynamic pruning (IDP) method to obtain a series of N:M sparse
candidate Transformers rapidly. A model compression scheme is further proposed
to significantly reduce the storage requirement for deployment. (2) From
hardware perspective, we present a flexible and efficient hardware
architecture, namely STA, to achieve significant speedup when deploying N:M
sparse Transformers. STA features not only a computing engine unifying both
sparse-dense and dense-dense matrix multiplications with high computational
efficiency but also a scalable softmax module eliminating the latency from
intermediate off-chip data communication. Experimental results show that
compared to other methods, N:M sparse Transformers, generated using IDP,
achieves an average of 6.7% improvement on accuracy with high training
efficiency. Moreover, STA can achieve 14.47x and 11.33x speedup compared to
Intel i9-9900X and NVIDIA RTX 2080 Ti, respectively, and perform 2.00-19.47x
faster inference than the state-of-the-art FPGA-based accelerators for
Transformers.
- Abstract(参考訳): Transformerは深層学習において不可欠である。
しかし,実生活アプリケーションでは,モデルのパラメータや操作が多すぎるため,効率的なトランスフォーマーの展開は極めて困難である。
この負担を軽減するために、トランスフォーマーを加速する効果的なアプローチとして、疎結合を利用する。
新しいAmpere GPUはモデルアクセラレーションを達成するために2:4のスパーシティパターンを利用するが、モデルをデプロイする際の多様なアルゴリズムとハードウェアの制約を満たすことはほとんどない。
対照的に、一般的なN:M空間パターンを利用して、トランスフォーマーを柔軟かつ効率的に高速化するアルゴリズムハードウェア協調最適化フレームワークを提案する。
1) アルゴリズムの観点から, 連続N:Mスパース候補変換器を高速に得るために, 継承された動的プルーニング(IDP)法とともに, スパーシティ継承機構を提案する。
さらに, モデル圧縮方式を提案し, 展開に必要な記憶容量を大幅に削減する。
2) ハードウェアの観点から,N:Mスパーストランスフォーマーをデプロイする際の大幅な高速化を実現するため,フレキシブルで効率的なハードウェアアーキテクチャであるSTAを提案する。
STAはスパース密度および密度密度行列の乗算を高い計算効率で統一するだけでなく、中間チップオフチップデータ通信から遅延を除去するスケーラブルなソフトマックスモジュールも備えている。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
さらに、STAはIntel i9-9900XとNVIDIA RTX 2080 Tiと比較して14.47xと11.33xのスピードアップを達成でき、トランスフォーマーの最先端FPGAベースのアクセラレータよりも2.00-19.47x高速推論を行うことができる。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Dynamic Diffusion Transformer [67.13876021157887]
Diffusion Transformer (DiT) は優れた性能を示したが、かなりの計算コストに悩まされている。
本研究では,動的拡散変換器 (DyDiT) を提案する。
3%の微調整により,DiT-XLのFLOPを51%削減し,生成を1.73高速化し,ImageNet上でのFIDスコア2.07を達成する。
論文 参考訳(メタデータ) (2024-10-04T14:14:28Z) - Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment [3.391499691517567]
トランスフォーマーモデルはAIタスクに革命をもたらしたが、その大きなサイズはリソース制約やレイテンシクリティカルなエッジデバイスへの実際のデプロイメントを妨げる。
本稿では, アルゴリズム, ハードウェア, 共同最適化の3つの側面から, トランスフォーマーのエンドツーエンド配置を効率的に行うための設計手法を提案する。
実験の結果,2.14-49.37倍のスループット向上と3.72-88.53倍のエネルギー効率を実現した。
論文 参考訳(メタデータ) (2024-07-16T12:36:10Z) - Accelerator-driven Data Arrangement to Minimize Transformers Run-time on
Multi-core Architectures [5.46396577345121]
人工知能におけるトランスフォーマーモデルの複雑さは、計算コスト、メモリ使用量、エネルギー消費を拡大します。
ハードウェアアクセラレーターのカーネルサイズに支配される新しいメモリアレンジメント戦略を提案し,オフチップデータアクセスを効果的に最小化する。
我々の手法は、最先端の変圧器を用いた推論を実行する場合、最大2.8倍の速度向上を実現することができる。
論文 参考訳(メタデータ) (2023-12-20T13:01:25Z) - ITA: An Energy-Efficient Attention and Softmax Accelerator for Quantized
Transformers [13.177523799771635]
トランスフォーマーネットワークは、自然言語処理タスクの最先端のアプローチとして登場した。
トランスモデルの効率的なハードウェアアクセラレーションは、高い演算強度、大きなメモリ要件、複雑なデータフロー依存性のために、新たな課題をもたらす。
組込みシステムにおける効率的な推論を目的としたトランスフォーマーおよび関連モデルのための新しいアクセラレータアーキテクチャ ITA を提案する。
論文 参考訳(メタデータ) (2023-07-07T10:05:38Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。
本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。
FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文 参考訳(メタデータ) (2020-07-16T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。