論文の概要: FTRANS: Energy-Efficient Acceleration of Transformers using FPGA
- arxiv url: http://arxiv.org/abs/2007.08563v1
- Date: Thu, 16 Jul 2020 18:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 00:09:45.923563
- Title: FTRANS: Energy-Efficient Acceleration of Transformers using FPGA
- Title(参考訳): FTRANS:FPGAを用いた変圧器のエネルギー効率向上
- Authors: Bingbing Li, Santosh Pandey, Haowen Fang, Yanjun Lyv, Ji Li, Jieyang
Chen, Mimi Xie, Lipeng Wan, Hang Liu, Caiwen Ding
- Abstract要約: 本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。
本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。
FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
- 参考スコア(独自算出の注目度): 11.032972017827248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In natural language processing (NLP), the "Transformer" architecture was
proposed as the first transduction model replying entirely on self-attention
mechanisms without using sequence-aligned recurrent neural networks (RNNs) or
convolution, and it achieved significant improvements for sequence to sequence
tasks. The introduced intensive computation and storage of these pre-trained
language representations has impeded their popularity into computation and
memory-constrained devices. The field-programmable gate array (FPGA) is widely
used to accelerate deep learning algorithms for its high parallelism and low
latency. However, the trained models are still too large to accommodate to an
FPGA fabric. In this paper, we propose an efficient acceleration framework,
Ftrans, for transformer-based large scale language representations. Our
framework includes enhanced block-circulant matrix (BCM)-based weight
representation to enable model compression on large-scale language
representations at the algorithm level with few accuracy degradation, and an
acceleration design at the architecture level. Experimental results show that
our proposed framework significantly reduces the model size of NLP models by up
to 16 times. Our FPGA design achieves 27.07x and 81x improvement in performance
and energy efficiency compared to CPU, and up to 8.80x improvement in energy
efficiency compared to GPU.
- Abstract(参考訳): 自然言語処理(nlp)では、シーケンスアラインリカレントニューラルネットワーク(rnn)や畳み込みを使わずに、自己接続機構に完全に応答する最初のトランスダクションモデルとして「トランスフォーマー」アーキテクチャが提案され、シーケンスからシーケンスへのタスクへの大幅な改善を達成した。
これらの事前訓練された言語表現の集中的な計算と記憶が、計算やメモリ制約のあるデバイスに人気を落としている。
フィールドプログラマブルゲートアレイ(FPGA)は、高い並列性と低レイテンシのためにディープラーニングアルゴリズムを高速化するために広く使われている。
しかし、トレーニングされたモデルはFPGAファブリックに対応するには大きすぎる。
本稿では,変圧器を用いた大規模言語表現のための高速化フレームワークFtransを提案する。
本フレームワークは,アルゴリズムレベルでの大規模言語表現のモデル圧縮を実現するため,ブロック循環行列(BCM)に基づく重み表現の強化と,アーキテクチャレベルでのアクセラレーション設計を含む。
実験の結果,提案手法はNLPモデルのモデルサイズを最大16倍に削減することがわかった。
FPGA設計では,CPUに比べて27.07倍,81倍の性能向上とエネルギー効率の向上を実現している。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - SWAT: Scalable and Efficient Window Attention-based Transformers Acceleration on FPGAs [3.302913401404089]
スライディングウィンドウベースの静的スパースアテンションは、入力トークンのアテンションスコープを制限することで問題を緩和する。
本稿では,データフローを意識したFPGAベースのアクセラレーション設計であるSWATを提案する。
論文 参考訳(メタデータ) (2024-05-27T10:25:08Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。