Fugu-MT 論文翻訳(概要): A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE

論文の概要: A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE

arxiv url: http://arxiv.org/abs/2401.02721v3
Date: Thu, 17 Oct 2024 07:44:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.253846
Title: A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE
Title（参考訳）: ニューラルネットワークを用いたTiny Transformerモデルの低コストFPGA実装
Authors: Ikumi Okubo, Keisuke Sugiura, Hiroki Matsutani,
Abstract要約: Transformerは画像認識タスクに採用され、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。本稿では,ResNetの代わりにNeural ODEをバックボーンとして使用する軽量ハイブリッドモデルを提案する。提案モデルは,エッジコンピューティングのための最小サイズのFPGAデバイス上に展開される。
参考スコア（独自算出の注目度）: 0.8403582577557918
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer has been adopted to image recognition tasks and shown to outperform CNNs and RNNs while it suffers from high training cost and computational complexity. To address these issues, a hybrid approach has become a recent research trend, which replaces a part of ResNet with an MHSA (Multi-Head Self-Attention). In this paper, we propose a lightweight hybrid model which uses Neural ODE (Ordinary Differential Equation) as a backbone instead of ResNet so that we can increase the number of iterations of building blocks while reusing the same parameters, mitigating the increase in parameter size per iteration. The proposed model is deployed on a modest-sized FPGA device for edge computing. The model is further quantized by QAT (Quantization Aware Training) scheme to reduce FPGA resource utilization while suppressing the accuracy loss. The quantized model achieves 79.68% top-1 accuracy for STL10 dataset that contains 96$\times$96 pixel images. The weights of the feature extraction network are stored on-chip to minimize the memory transfer overhead, allowing faster inference. By eliminating the overhead of memory transfers, inference can be executed seamlessly, leading to accelerated inference. The proposed FPGA implementation accelerates the backbone and MHSA parts by 34.01$\times$, and achieves an overall 9.85$\times$ speedup when taking into account the software pre- and post-processing. The FPGA acceleration leads to 7.10$\times$ better energy efficiency compared to the ARM Cortex-A53 CPU. The proposed lightweight Transformer model is demonstrated on Xilinx ZCU104 board for the image recognition of 96$\times$96 pixel images in this paper and can be applied to different image sizes by modifying the pre-processing layer.
Abstract（参考訳）: Transformerは画像認識タスクに採用され、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。これらの問題に対処するため、ハイブリッドアプローチは最近の研究トレンドとなり、ResNetの一部をMHSA(Multi-Head Self-Attention)に置き換えている。本稿では,ResNetの代わりにNeural ODE (Ordinary Differential Equation) をバックボーンとして用いる軽量ハイブリッドモデルを提案する。提案モデルは,エッジコンピューティングのための最小サイズのFPGAデバイス上に展開される。このモデルはQAT(Quantization Aware Training)スキームによってさらに定量化され、FPGAリソースの利用を削減し、精度損失を抑える。量子化モデルは、96$\times$96ピクセル画像を含むSTL10データセットの79.68%のトップ-1精度を達成する。特徴抽出ネットワークの重みは、メモリ転送オーバーヘッドを最小限に抑え、高速な推論を可能にするために、チップ上に格納される。メモリ転送のオーバーヘッドをなくすことで、推論はシームレスに実行でき、推論が高速化される。提案したFPGA実装は、バックボーンとMHSA部品を34.01$\times$で高速化し、ソフトウェアの前処理と後処理を考慮に入れれば、全体的な9.85$\times$スピードアップを達成する。 FPGAアクセラレーションはARM Cortex-A53 CPUと比較して7.10$\times$エネルギー効率が向上する。本論文では,96$\times$96ピクセル画像の画像認識のために,Xilinx ZCU104基板上に提案した軽量トランスフォーマーモデルを実演し,前処理層を変更することで,異なる画像サイズに適用することができる。

関連論文リスト

Efficient Image Reconstruction Architecture for Neutral Atom Quantum Computing [2.579336620638783]
中性原子量子コンピュータ(NAQC)は、その長いコヒーレンス時間と優れたスケーラビリティのために多くの注目を集めている。主な欠点の1つは、比較的時間を要するコントロールオーバーヘッドである。ツイーザー型NAQCのための高並列原子検出加速器を提案する。
論文参考訳（メタデータ） (2026-03-03T16:40:24Z)
DiP: Taming Diffusion Models in Pixel Space [91.51011771517683]
Diffusion Transformer (DiT) バックボーンは、効率的なグローバル構造構築のために大きなパッチで動作する。共同トレーニングされた軽量パッチディーラーヘッドは、コンテキスト機能を活用して、きめ細かいローカル詳細を復元する。
論文参考訳（メタデータ） (2025-11-24T06:55:49Z)
FPQVAR: Floating Point Quantization for Visual Autoregressive Model with FPGA Hardware Co-design [5.4815337424005355]
視覚自己回帰(VAR)モデリングは、次世代の予測から次世代の予測へ、画像生成のパラダイムシフトを象徴している。メモリと計算コストを削減するため、VARのための効率的な後学習浮動小数点(FP)量子化フレームワークであるFPQvarを提案する。 AMD-Xilinx VCK190 FPGA上の我々のアクセラレータは、整数ベースのアクセラレータよりも3.1倍高い1.1イメージ/sのスループットを達成する。
論文参考訳（メタデータ） (2025-05-22T07:47:51Z)
A Runtime-Adaptive Transformer Neural Network Accelerator on FPGAs [0.0]
ADAPTORは、FPGA上のトランスフォーマーエンコーダとデコーダの高密度行列計算のためのランタイム適応型アクセラレータである。 FPGAプラットフォームにリソースを分散するための効率的な行列タイリングが組み込まれている。最新のFPGAベースのアクセラレータと比べて1.7～2.25$times$のスピードアップを実現している。
論文参考訳（メタデータ） (2024-11-27T08:53:19Z)
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文参考訳（メタデータ） (2024-11-26T04:49:42Z)
Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文参考訳（メタデータ） (2024-10-01T17:23:26Z)
FAMOUS: Flexible Accelerator for the Attention Mechanism of Transformer on UltraScale+ FPGAs [0.0]
Transformer Neural Network(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、幅広いアプリケーション領域に応用されている。本稿では、フィールドプログラマブルゲートアレイ(FPGA)上でのTNNの重み付きマルチヘッドアテンション計算のためのフレキシブルハードウェアアクセラレータである textitFamous を提案する。並列性を改善し、レイテンシを低減するために、処理要素とオンチップメモリの高利用に最適化されている。
論文参考訳（メタデータ） (2024-09-21T05:25:46Z)
Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文参考訳（メタデータ） (2024-07-25T16:35:46Z)
Stretching Each Dollar: Diffusion Training from Scratch on a Micro-Budget [53.311109531586844]
大規模T2I拡散変圧器モデルの低コスト化を実証する。我々は16億のパラメータスパーストランスをわずか1890ドルの経済的コストで訓練し、ゼロショット世代で12.7 FIDを達成する。我々は、マイクロ予算での大規模拡散モデルのトレーニングをさらに民主化するために、エンドツーエンドのトレーニングパイプラインをリリースすることを目指している。
論文参考訳（メタデータ） (2024-07-22T17:23:28Z)
LIPT: Latency-aware Image Processing Transformer [17.802838753201385]
LIPTと呼ばれる遅延対応画像処理変換器を提案する。我々は、メモリ集約演算子の代わりに自己注意と畳み込みを組み合わせた低レイテンシ比LIPTブロックを考案し、実用的な高速化を実現する。
論文参考訳（メタデータ） (2024-04-09T07:25:30Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Accurate, Low-latency, Efficient SAR Automatic Target Recognition on FPGA [3.251765107970636]
合成開口レーダ(SAR)自動目標認識(ATR)はリモートセンシング画像認識の鍵となる技術である。 SAR ATRのための最先端の畳み込みニューラルネットワーク(CNN)は、エンハンハイ計算コストとエンハンラージメモリフットプリントに悩まされている。本稿では,これらの問題に対処するため,FPGA 上でモデルアーキテクチャを包括的に設計する手法を提案する。
論文参考訳（メタデータ） (2023-01-04T05:35:30Z)
Hybrid Pixel-Unshuffled Network for Lightweight Image Super-Resolution [64.54162195322246]
畳み込みニューラルネットワーク(CNN)は画像超解像(SR)において大きな成功を収めたほとんどのディープCNNベースのSRモデルは、高い性能を得るために大量の計算を処理している。 SRタスクに効率的かつ効果的なダウンサンプリングモジュールを導入することで,HPUN(Hybrid Pixel-Unshuffled Network)を提案する。
論文参考訳（メタデータ） (2022-03-16T20:10:41Z)
Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文参考訳（メタデータ） (2021-06-14T17:39:49Z)
FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。 FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文参考訳（メタデータ） (2020-07-16T18:58:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。