論文の概要: A Cost-Efficient FPGA Implementation of Tiny Transformer Model using
Neural ODE
- arxiv url: http://arxiv.org/abs/2401.02721v1
- Date: Fri, 5 Jan 2024 09:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:31:39.246281
- Title: A Cost-Efficient FPGA Implementation of Tiny Transformer Model using
Neural ODE
- Title(参考訳): ニューラルネットワークを用いたTiny Transformerモデルの低コストFPGA実装
- Authors: Ikumi Okubo, Keisuke Sugiura, Hiroki Matsutani
- Abstract要約: Transformerは、アテンションメカニズムを備えた新興ニューラルネットワークモデルである。
提案したハイブリッドモデルでは,CNNベースのモデルと比較してパラメータサイズを94.6%削減する。
この実装はARM Cortex-A53 CPUと比較して12.8倍のスピードアップと9.21倍のエネルギー効率を実現している。
- 参考スコア(独自算出の注目度): 0.9444784653236158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer is an emerging neural network model with attention mechanism. It
has been adopted to various tasks and achieved a favorable accuracy compared to
CNNs and RNNs. While the attention mechanism is recognized as a general-purpose
component, many of the Transformer models require a significant number of
parameters compared to the CNN-based ones. To mitigate the computational
complexity, recently, a hybrid approach has been proposed, which uses ResNet as
a backbone architecture and replaces a part of its convolution layers with an
MHSA (Multi-Head Self-Attention) mechanism. In this paper, we significantly
reduce the parameter size of such models by using Neural ODE (Ordinary
Differential Equation) as a backbone architecture instead of ResNet. The
proposed hybrid model reduces the parameter size by 94.6% compared to the
CNN-based ones without degrading the accuracy. We then deploy the proposed
model on a modest-sized FPGA device for edge computing. To further reduce FPGA
resource utilization, we quantize the model following QAT (Quantization Aware
Training) scheme instead of PTQ (Post Training Quantization) to suppress the
accuracy loss. As a result, an extremely lightweight Transformer-based model
can be implemented on resource-limited FPGAs. The weights of the feature
extraction network are stored on-chip to minimize the memory transfer overhead,
allowing faster inference. By eliminating the overhead of memory transfers,
inference can be executed seamlessly, leading to accelerated inference. The
proposed FPGA implementation achieves 12.8x speedup and 9.21x energy efficiency
compared to ARM Cortex-A53 CPU.
- Abstract(参考訳): Transformerは、注目メカニズムを備えた新興ニューラルネットワークモデルである。
様々なタスクに採用され、CNNやRNNに比べて精度が良い。
アテンション機構は汎用コンポーネントとして認識されているが、多くのトランスフォーマーモデルはcnnベースのものに比べてかなりの数のパラメータを必要とする。
計算複雑性を軽減するため、最近ではResNetをバックボーンアーキテクチャとして使用し、その畳み込み層の一部をMHSA(Multi-Head Self-Attention)メカニズムで置き換えるハイブリッドアプローチが提案されている。
本稿では,resnetではなく,バックボーンアーキテクチャとしてneural ode(ordinary differential equation)を用いることで,これらのモデルのパラメータサイズを大幅に削減する。
提案するハイブリッドモデルは,精度を低下させることなくパラメータサイズを94.6%削減する。
次に、エッジコンピューティングのための控えめなサイズFPGAデバイスに提案したモデルをデプロイする。
FPGAリソースの利用をさらに削減するため、PTQ(Post Training Quantization)の代わりにQAT(Quantization Aware Training)スキームに基づくモデルを定量化し、精度損失を抑制する。
その結果、リソース限定FPGA上で非常に軽量なTransformerベースのモデルを実現することができる。
特徴抽出ネットワークの重みはチップ上に格納され、メモリ転送オーバーヘッドを最小限に抑え、高速な推論を可能にする。
メモリ転送のオーバーヘッドをなくすことで、推論をシームレスに実行できるため、推論が加速される。
提案したFPGA実装はARM Cortex-A53 CPUと比較して12.8倍の高速化と9.21倍のエネルギー効率を実現している。
関連論文リスト
- Transforming Image Super-Resolution: A ConvFormer-based Efficient
Approach [63.98380888730723]
本稿では, Convolutional Transformer Layer (ConvFormer) と ConvFormer-based Super-Resolution Network (CFSR) を紹介する。
CFSRは、計算コストの少ない長距離依存と広範囲の受容場を効率的にモデル化する。
これは、x2 SRタスクのUrban100データセットで0.39dB、パラメータが26%、FLOPが31%減少している。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Mitigating Memory Wall Effects in CNN Engines with On-the-Fly Weights
Generation [13.681095158525514]
unzipFPGAは、既存のCNNエンジンの制限に対応する新しいCNN推論システムである。
そこで本研究では,オンザフライでの重み生成を可能にする重み生成モジュールを提案する。
さらに,対象のCNNデバイス対に重み生成機構を調整したハードウェア・アウェア自動手法により,unzipFPGAをさらに強化する。
論文 参考訳(メタデータ) (2023-07-25T11:19:21Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Accurate, Low-latency, Efficient SAR Automatic Target Recognition on
FPGA [3.251765107970636]
合成開口レーダ(SAR)自動目標認識(ATR)はリモートセンシング画像認識の鍵となる技術である。
SAR ATRのための最先端の畳み込みニューラルネットワーク(CNN)は、エンハンハイ計算コストとエンハンラージメモリフットプリントに悩まされている。
本稿では,これらの問題に対処するため,FPGA 上でモデルアーキテクチャを包括的に設計する手法を提案する。
論文 参考訳(メタデータ) (2023-01-04T05:35:30Z) - Towards Enabling Dynamic Convolution Neural Network Inference for Edge
Intelligence [0.0]
エッジインテリジェンスの最近の進歩は、スループットを高め、レイテンシを低減するために、エッジネットワーク上のCNN推論を必要とする。
柔軟性を得るためには、さまざまなモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。
本稿では,スケーラブルで動的に分散したCNN推論を高速に設計するためのライブラリベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-18T22:33:42Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。
本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。
FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文 参考訳(メタデータ) (2020-07-16T18:58:31Z) - Evolutionary Bin Packing for Memory-Efficient Dataflow Inference
Acceleration on FPGA [2.3395728784538767]
FPGA(Field Programmable Gate Arrays)に実装された畳み込みニューラルネットワーク(CNN)データフロー推論アクセラレータは、エネルギー効率の向上とレイテンシの低下を実証している。
しかし、CNNパラメータメモリの形状複合体は通常FPGAオンチップメモリ(OCM)にうまくマッピングされない。
FPGA OCMに対するCNNパラメータのマッピング効率を向上させる設計手法を提案する。
論文 参考訳(メタデータ) (2020-03-24T09:55:08Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。