論文の概要: VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer
- arxiv url: http://arxiv.org/abs/2201.06618v1
- Date: Mon, 17 Jan 2022 20:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 14:24:22.031886
- Title: VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer
- Title(参考訳): vaqf:低ビットビジョントランスフォーマーのための完全自動ソフトウェアハードウェア共同設計フレームワーク
- Authors: Mengshu Sun, Haoyu Ma, Guoliang Kang, Yifan Jiang, Tianlong Chen,
Xiaolong Ma, Zhangyang Wang, Yanzhi Wang
- Abstract要約: 量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
- 参考スコア(独自算出の注目度): 121.85581713299918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer architectures with attention mechanisms have obtained success
in Nature Language Processing (NLP), and Vision Transformers (ViTs) have
recently extended the application domains to various vision tasks. While
achieving high performance, ViTs suffer from large model size and high
computation complexity that hinders the deployment of them on edge devices. To
achieve high throughput on hardware and preserve the model accuracy
simultaneously, we propose VAQF, a framework that builds inference accelerators
on FPGA platforms for quantized ViTs with binary weights and low-precision
activations. Given the model structure and the desired frame rate, VAQF will
automatically output the required quantization precision for activations as
well as the optimized parameter settings of the accelerator that fulfill the
hardware requirements. The implementations are developed with Vivado High-Level
Synthesis (HLS) on the Xilinx ZCU102 FPGA board, and the evaluation results
with the DeiT-base model indicate that a frame rate requirement of 24 frames
per second (FPS) is satisfied with 8-bit activation quantization, and a target
of 30 FPS is met with 6-bit activation quantization. To the best of our
knowledge, this is the first time quantization has been incorporated into ViT
acceleration on FPGAs with the help of a fully automatic framework to guide the
quantization strategy on the software side and the accelerator implementations
on the hardware side given the target frame rate. Very small compilation time
cost is incurred compared with quantization training, and the generated
accelerators show the capability of achieving real-time execution for
state-of-the-art ViT models on FPGAs.
- Abstract(参考訳): 注意機構を備えたトランスフォーマーアーキテクチャはNLP(Nature Language Processing)で成功し、ViT(Vision Transformer)はアプリケーションドメインを様々な視覚タスクに拡張した。
高性能を実現する一方で、ViTは大きなモデルサイズと高い計算複雑性に悩まされ、エッジデバイスへのデプロイを妨げている。
ハードウェア上で高いスループットを実現し,モデル精度を同時に維持するために,二値重み付き量子化ViTのためのFPGAプラットフォーム上で推論アクセラレータを構築するVAQFを提案する。
モデル構造と所望のフレームレートを考慮すれば、vaqfはハードウェア要件を満たすアクセラレータの最適化パラメータ設定に加えて、アクティベーションに必要な量子化精度を自動的に出力します。
実装は、xilinx zcu102 fpga基板上でvivado high-level synthesis (hls) を用いて開発され、deit-baseモデルによる評価結果から、24フレーム/秒(fps)のフレームレート要件が8ビットのアクティベーション量子化で満たされ、30fpsのターゲットが6ビットのアクティベーション量子化を満足していることが示されている。
我々の知る限りでは、ソフトウェア側の量子化戦略とハードウェア側のアクセラレータ実装を目標フレームレートでガイドする完全に自動化されたフレームワークの助けを借りて、FPGA上でのVTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
量子化トレーニングに比べてコンパイル時間コストが非常に小さく、生成された加速器はfpga上の最先端vitモデルのリアルタイム実行を実現する能力を示している。
関連論文リスト
- I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of
Post-Training ViTs Quantization [63.07712842509526]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - OHQ: On-chip Hardware-aware Quantization [55.62734488492329]
我々は,オンラインデバイスにアクセスすることなく,ハードウェア対応の混合精度量子化を行うオンチップハードウェア・アウェア量子化(OHQ)フレームワークを提案する。
線形プログラミングによるネットワークおよびハードウェアの洞察により、最適化されたビット幅構成が得られる。
ResNet-18 と MobileNetV3 でそれぞれ70% と 73% の精度を実現した。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision
Transformers [35.92244135055901]
HeatViTは、組み込みFPGA上の視覚変換器(ViT)のための画像適応型トークンプルーニングフレームワークである。
HeatViTは既存のViTプルーニング研究と比較して0.7%$sim$8.9%高い精度を達成できる。
HeatViTは28.4%以上のコスト削減を実現している。
論文 参考訳(メタデータ) (2022-11-15T13:00:43Z) - Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision
Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。
本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-10T05:54:46Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - FTRANS: Energy-Efficient Acceleration of Transformers using FPGA [11.032972017827248]
本稿では,変換器をベースとした大規模言語表現のための高速化フレームワークFtransを提案する。
本フレームワークは,NLPモデルのモデルサイズを最大16倍に削減する。
FPGA設計は、CPUと比較して27.07倍、81倍の性能向上とエネルギー効率の向上を実現し、GPUと比較して最大8.80倍のエネルギー効率向上を実現している。
論文 参考訳(メタデータ) (2020-07-16T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。