論文の概要: Integer-only Quantized Transformers for Embedded FPGA-based Time-series Forecasting in AIoT
- arxiv url: http://arxiv.org/abs/2407.11041v2
- Date: Fri, 6 Sep 2024 13:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 18:20:31.091656
- Title: Integer-only Quantized Transformers for Embedded FPGA-based Time-series Forecasting in AIoT
- Title(参考訳): AIoTにおけるFPGAを用いた時系列予測のための整数のみ量子変換器
- Authors: Tianheng Ling, Chao Qian, Gregor Schiele,
- Abstract要約: 本稿では,AIoTシステムにおけるデバイス上の時系列予測に最適化されたTransformers用ハードウェアアクセラレータの設計について述べる。
整数のみの量子化と量子化対応トレーニングと最適化ハードウェア設計を統合し、6ビットおよび4ビットの量子化トランスフォーマーモデルを実現する。
関連する研究で8ビット量子トランスモデルと比較すると、我々の4ビット量子トランスモデルはテスト損失をわずか0.63%増加させ、最大132.33倍速く動作し、48.19倍のエネルギーを消費する。
- 参考スコア(独自算出の注目度): 19.835810073852244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the design of a hardware accelerator for Transformers, optimized for on-device time-series forecasting in AIoT systems. It integrates integer-only quantization and Quantization-Aware Training with optimized hardware designs to realize 6-bit and 4-bit quantized Transformer models, which achieved precision comparable to 8-bit quantized models from related research. Utilizing a complete implementation on an embedded FPGA (Xilinx Spartan-7 XC7S15), we examine the feasibility of deploying Transformer models on embedded IoT devices. This includes a thorough analysis of achievable precision, resource utilization, timing, power, and energy consumption for on-device inference. Our results indicate that while sufficient performance can be attained, the optimization process is not trivial. For instance, reducing the quantization bitwidth does not consistently result in decreased latency or energy consumption, underscoring the necessity of systematically exploring various optimization combinations. Compared to an 8-bit quantized Transformer model in related studies, our 4-bit quantized Transformer model increases test loss by only 0.63%, operates up to 132.33x faster, and consumes 48.19x less energy.
- Abstract(参考訳): 本稿では,AIoTシステムにおけるデバイス上の時系列予測に最適化されたTransformers用ハードウェアアクセラレータの設計について述べる。
整数のみの量子化と量子化アウェアトレーニングを最適化されたハードウェア設計と統合し、6ビットおよび4ビットの量子化トランスフォーマーモデルを実現し、関連する研究から8ビットの量子化モデルに匹敵する精度を達成した。
組み込みFPGA(Xilinx Spartan-7 XC7S15)の完全な実装を利用して,組込みIoTデバイスにTransformerモデルをデプロイする可能性を検討する。
これには、達成可能な精度、リソース利用、タイミング、電力、デバイス上の推論のためのエネルギー消費の徹底的な分析が含まれる。
以上の結果から,十分な性能を達成できたとしても,最適化プロセスは簡単ではないことが示唆された。
例えば、量子化ビット幅の削減は、様々な最適化の組み合わせを体系的に探索する必要性を強調し、レイテンシやエネルギー消費を一貫して減少させるわけではない。
関連する研究で8ビット量子トランスモデルと比較すると、我々の4ビット量子トランスモデルはテスト損失をわずか0.63%増加させ、最大132.33倍速く動作し、48.19倍のエネルギーを消費する。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision
Transformers [35.92244135055901]
HeatViTは、組み込みFPGA上の視覚変換器(ViT)のための画像適応型トークンプルーニングフレームワークである。
HeatViTは既存のViTプルーニング研究と比較して0.7%$sim$8.9%高い精度を達成できる。
HeatViTは28.4%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2022-11-15T13:00:43Z) - SAMP: A Model Inference Toolkit of Post-Training Quantization for Text
Processing via Self-Adaptive Mixed-Precision [8.746249050302058]
推論のためのモデルを簡単に定量化するためのツールキットを開発した。
混合精度アーキテクチャにより量子化率を自動的に制御する自己適応混合精度(SAMP)を提案する。
実験の結果,SAMPツールキットはPyTorchやFasterTransformerよりも高速であることがわかった。
論文 参考訳(メタデータ) (2022-09-19T15:53:10Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision
Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。
本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-10T05:54:46Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Towards Fully 8-bit Integer Inference for the Transformer Model [39.22272841663168]
トランスフォーマーと呼ばれるトランスフォーマーアーキテクチャを原理的に修正した後、(ほぼ)完全8ビット整数推論アルゴリズムが導出可能であることを示す。
We experiment on WMT16 En->Ro, WMT14 En->De and En->Fr translation task as the WikiText-103 language modelling task shows that the fully 8-bit Transformer system achieves comparable performance with the floating point baseline but nearly 4x less memory footprint。
論文 参考訳(メタデータ) (2020-09-17T03:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。