論文の概要: A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE
- arxiv url: http://arxiv.org/abs/2401.02721v2
- Date: Tue, 25 Jun 2024 13:49:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 20:50:02.392909
- Title: A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE
- Title(参考訳): ニューラルネットワークを用いたTiny Transformerモデルの低コストFPGA実装
- Authors: Ikumi Okubo, Keisuke Sugiura, Hiroki Matsutani,
- Abstract要約: 本稿では,12.1$times$パラメータ削減のためにResNetの代わりにNeural ODEをバックボーンとして使用する軽量ハイブリッドモデルを提案する。
STL10データセットでは、提案されたモデルは、ResNet50に匹敵する80.15%のトップ1精度を達成する。
提案したFPGA実装は、バックボーンとMHSA部品の34.01$times$スピードアップを達成し、ソフトウェアの前処理と後処理を考慮すると、全体的な9.85$times$スピードアップを達成する。
- 参考スコア(独自算出の注目度): 0.8403582577557918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has been adopted to a wide range of tasks and shown to outperform CNNs and RNNs while it suffers from high training cost and computational complexity. To address these issues, a hybrid approach has become a recent research trend, which replaces a part of ResNet with an MHSA (Multi-Head Self-Attention). In this paper, we propose a lightweight hybrid model which uses Neural ODE (Ordinary Differential Equation) as a backbone instead of ResNet for 12.1$\times$ parameter reduction. For the STL10 dataset, the proposed model achieves 80.15% top-1 accuracy which is comparable to ResNet50. Then, the proposed model is deployed on a modest-sized FPGA device for edge computing. To further reduce FPGA resource utilization, the model is quantized following QAT (Quantization Aware Training) scheme instead of PTQ (Post Training Quantization) to suppress the accuracy loss. As a result, an extremely lightweight Transformer-based model can be implemented on resource-limited FPGAs. The weights of the feature extraction network are stored on-chip to minimize the memory transfer overhead, allowing faster inference. By eliminating the overhead of memory transfers, inference can be executed seamlessly, leading to accelerated inference. The proposed FPGA implementation achieves a 34.01$\times$ speedup for the backbone and MHSA parts, and it achieves an overall 9.85$\times$ speedup when taking into account software pre- and post-processing. It also achieves an overall 7.10$\times$ higher energy efficiency compared to the ARM Cortex-A53 CPU.
- Abstract(参考訳): Transformerは幅広いタスクに採用されており、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。
これらの問題に対処するため、ハイブリッドアプローチは最近の研究トレンドとなり、ResNetの一部をMHSA(Multi-Head Self-Attention)に置き換えている。
本稿では、12.1$\times$パラメータ削減のためにResNetの代わりにNeural ODE(正規微分方程式)をバックボーンとして使用する軽量ハイブリッドモデルを提案する。
STL10データセットでは、提案されたモデルは、ResNet50に匹敵する80.15%のトップ1精度を達成する。
次に,エッジコンピューティングのための最小サイズのFPGAデバイス上に,提案モデルが展開される。
FPGAリソースの利用をさらに削減するため、PTQ(Post Training Quantization)の代わりにQAT(Quantization Aware Training)スキームに従ってモデルを定量化し、精度損失を抑制する。
その結果、リソース制限付きFPGA上で非常に軽量なTransformerベースのモデルを実現することができる。
特徴抽出ネットワークの重みは、メモリ転送オーバーヘッドを最小限に抑え、高速な推論を可能にするために、チップ上に格納される。
メモリ転送のオーバーヘッドをなくすことで、推論はシームレスに実行でき、推論が高速化される。
提案したFPGA実装は、バックボーンとMHSA部品の34.01$\times$スピードアップを達成し、ソフトウェアの前処理と後処理を考慮すると、全体的な9.85$\times$スピードアップを達成する。
また、ARM Cortex-A53 CPUと比較して7.10$\times$高効率を実現している。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Stochastic Spiking Attention: Accelerating Attention with Stochastic
Computing in Spiking Networks [33.51445486269896]
スパイキングニューラルネットワーク(SNN)は、計算要求の削減と電力効率の向上のため、最近Transformerアーキテクチャに統合されている。
我々は,SNNベースのトランスフォーマーのドット積アテンションを効果的に実行するために,計算(SC)を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-14T11:47:19Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Accurate, Low-latency, Efficient SAR Automatic Target Recognition on
FPGA [3.251765107970636]
合成開口レーダ(SAR)自動目標認識(ATR)はリモートセンシング画像認識の鍵となる技術である。
SAR ATRのための最先端の畳み込みニューラルネットワーク(CNN)は、エンハンハイ計算コストとエンハンラージメモリフットプリントに悩まされている。
本稿では,これらの問題に対処するため,FPGA 上でモデルアーキテクチャを包括的に設計する手法を提案する。
論文 参考訳(メタデータ) (2023-01-04T05:35:30Z) - Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。
ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-16T02:17:49Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - Fast convolutional neural networks on FPGAs with hls4ml [0.22756183402372013]
FPGAに超低遅延低電力ディープニューラルネットワークをデプロイするための自動化ツールを紹介します。
最新のモデルパフォーマンスを維持しながら、畳み込みアーキテクチャを使用して5,mu$sの推論レイテンシを実現する方法をデモします。
論文 参考訳(メタデータ) (2021-01-13T14:47:11Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。