論文の概要: VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer
- arxiv url: http://arxiv.org/abs/2201.06618v1
- Date: Mon, 17 Jan 2022 20:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 14:24:22.031886
- Title: VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer
- Title(参考訳): vaqf:低ビットビジョントランスフォーマーのための完全自動ソフトウェアハードウェア共同設計フレームワーク
- Authors: Mengshu Sun, Haoyu Ma, Guoliang Kang, Yifan Jiang, Tianlong Chen,
Xiaolong Ma, Zhangyang Wang, Yanzhi Wang
- Abstract要約: 量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
- 参考スコア(独自算出の注目度): 121.85581713299918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer architectures with attention mechanisms have obtained success
in Nature Language Processing (NLP), and Vision Transformers (ViTs) have
recently extended the application domains to various vision tasks. While
achieving high performance, ViTs suffer from large model size and high
computation complexity that hinders the deployment of them on edge devices. To
achieve high throughput on hardware and preserve the model accuracy
simultaneously, we propose VAQF, a framework that builds inference accelerators
on FPGA platforms for quantized ViTs with binary weights and low-precision
activations. Given the model structure and the desired frame rate, VAQF will
automatically output the required quantization precision for activations as
well as the optimized parameter settings of the accelerator that fulfill the
hardware requirements. The implementations are developed with Vivado High-Level
Synthesis (HLS) on the Xilinx ZCU102 FPGA board, and the evaluation results
with the DeiT-base model indicate that a frame rate requirement of 24 frames
per second (FPS) is satisfied with 8-bit activation quantization, and a target
of 30 FPS is met with 6-bit activation quantization. To the best of our
knowledge, this is the first time quantization has been incorporated into ViT
acceleration on FPGAs with the help of a fully automatic framework to guide the
quantization strategy on the software side and the accelerator implementations
on the hardware side given the target frame rate. Very small compilation time
cost is incurred compared with quantization training, and the generated
accelerators show the capability of achieving real-time execution for
state-of-the-art ViT models on FPGAs.
- Abstract(参考訳): 注意機構を備えたトランスフォーマーアーキテクチャはNLP(Nature Language Processing)で成功し、ViT(Vision Transformer)はアプリケーションドメインを様々な視覚タスクに拡張した。
高性能を実現する一方で、ViTは大きなモデルサイズと高い計算複雑性に悩まされ、エッジデバイスへのデプロイを妨げている。
ハードウェア上で高いスループットを実現し,モデル精度を同時に維持するために,二値重み付き量子化ViTのためのFPGAプラットフォーム上で推論アクセラレータを構築するVAQFを提案する。
モデル構造と所望のフレームレートを考慮すれば、vaqfはハードウェア要件を満たすアクセラレータの最適化パラメータ設定に加えて、アクティベーションに必要な量子化精度を自動的に出力します。
実装は、xilinx zcu102 fpga基板上でvivado high-level synthesis (hls) を用いて開発され、deit-baseモデルによる評価結果から、24フレーム/秒(fps)のフレームレート要件が8ビットのアクティベーション量子化で満たされ、30fpsのターゲットが6ビットのアクティベーション量子化を満足していることが示されている。
我々の知る限りでは、ソフトウェア側の量子化戦略とハードウェア側のアクセラレータ実装を目標フレームレートでガイドする完全に自動化されたフレームワークの助けを借りて、FPGA上でのVTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
量子化トレーニングに比べてコンパイル時間コストが非常に小さく、生成された加速器はfpga上の最先端vitモデルのリアルタイム実行を実現する能力を示している。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Model Quantization and Hardware Acceleration for Vision Transformers: A Comprehensive Survey [6.04807281619171]
ビジョントランスフォーマー(ViT)は近年、いくつかの視覚関連アプリケーションにおいて、畳み込みニューラルネットワーク(CNN)に代わる有望な選択肢として、かなりの注目を集めている。
本稿では,ViTs量子化とそのハードウェアアクセラレーションに関する包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-01T04:32:07Z) - HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision
Transformers [35.92244135055901]
HeatViTは、組み込みFPGA上の視覚変換器(ViT)のための画像適応型トークンプルーニングフレームワークである。
HeatViTは既存のViTプルーニング研究と比較して0.7%$sim$8.9%高い精度を達成できる。
HeatViTは28.4%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2022-11-15T13:00:43Z) - Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision
Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。
本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-10T05:54:46Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。