論文の概要: HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision
Transformers
- arxiv url: http://arxiv.org/abs/2211.08110v1
- Date: Tue, 15 Nov 2022 13:00:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:49:53.365165
- Title: HeatViT: Hardware-Efficient Adaptive Token Pruning for Vision
Transformers
- Title(参考訳): HeatViT:視覚変換器のためのハードウェア効率の良い適応型トーケンプルーニング
- Authors: Peiyan Dong, Mengshu Sun, Alec Lu, Yanyue Xie, Kenneth Liu, Zhenglun
Kong, Xin Meng, Zhengang Li, Xue Lin, Zhenman Fang, Yanzhi Wang
- Abstract要約: HeatViTは、組み込みFPGA上の視覚変換器(ViT)のための画像適応型トークンプルーニングフレームワークである。
HeatViTは既存のViTプルーニング研究と比較して0.7%$sim$8.9%高い精度を達成できる。
HeatViTは28.4%以上のコスト削減を実現している。
- 参考スコア(独自算出の注目度): 35.92244135055901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While vision transformers (ViTs) have continuously achieved new milestones in
the field of computer vision, their sophisticated network architectures with
high computation and memory costs have impeded their deployment on
resource-limited edge devices. In this paper, we propose a hardware-efficient
image-adaptive token pruning framework called HeatViT for efficient yet
accurate ViT acceleration on embedded FPGAs. By analyzing the inherent
computational patterns in ViTs, we first design an effective attention-based
multi-head token selector, which can be progressively inserted before
transformer blocks to dynamically identify and consolidate the non-informative
tokens from input images. Moreover, we implement the token selector on hardware
by adding miniature control logic to heavily reuse existing hardware components
built for the backbone ViT. To improve the hardware efficiency, we further
employ 8-bit fixed-point quantization, and propose polynomial approximations
with regularization effect on quantization error for the frequently used
nonlinear functions in ViTs. Finally, we propose a latency-aware multi-stage
training strategy to determine the transformer blocks for inserting token
selectors and optimize the desired (average) pruning rates for inserted token
selectors, in order to improve both the model accuracy and inference latency on
hardware. Compared to existing ViT pruning studies, under the similar
computation cost, HeatViT can achieve 0.7%$\sim$8.9% higher accuracy; while
under the similar model accuracy, HeatViT can achieve more than
28.4%$\sim$65.3% computation reduction, for various widely used ViTs, including
DeiT-T, DeiT-S, DeiT-B, LV-ViT-S, and LV-ViT-M, on the ImageNet dataset.
Compared to the baseline hardware accelerator, our implementations of HeatViT
on the Xilinx ZCU102 FPGA achieve 3.46$\times$$\sim$4.89$\times$ speedup.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)はコンピュータビジョンの分野で新たなマイルストーンを継続的に達成してきたが、高い計算とメモリコストを持つ高度なネットワークアーキテクチャは、リソース制限されたエッジデバイスへのデプロイメントを妨げている。
本稿では,組込みfpga上での効率良く高精度なvit加速を実現するため,ハードウェア効率のよい画像適応トークンプルーニングフレームワークheatvitを提案する。
vitsの固有計算パターンを解析することにより,まず,入力画像から非入力トークンを動的に識別・統合するために,変圧器ブロックの前に段階的に挿入可能な,注意に基づく効果的なマルチヘッドトークンセレクタを設計する。
さらに,backbone vit用に構築された既存のハードウェアコンポーネントを再利用するために,ミニチュア制御ロジックを追加することで,ハードウェア上でトークンセレクタを実装する。
ハードウェア効率を向上させるため,8ビットの不動点量子化を行い,vitsで頻繁に使用される非線形関数の量子化誤差に正則化効果を持つ多項式近似を提案する。
最後に,トークンセレクタを挿入するための変圧器ブロックを決定し,挿入トークンセレクタの所望(平均)プルーニングレートを最適化し,ハードウェア上でのモデル精度と推論遅延を改善するための遅延対応マルチステージトレーニング戦略を提案する。
既存のViTプルーニングと比較すると、同様の計算コストでHeatViTは0.7%$\sim$8.9%の精度を達成できるが、同様のモデル精度では、ImageNetデータセット上でDeiT-T、DeiT-S、DeiT-B、LV-ViT-S、LV-ViT-Mを含む様々な広く使われているViTに対して28.4%$\sim$65.3%以上の計算削減を達成できる。
ベースラインハードウェアアクセラレータと比較して、Xilinx ZCU102 FPGA上のHeatViTの実装は、3.46$\times$$\sim$4.89$\times$ Speedupを実現しています。
関連論文リスト
- Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers [56.37495946212932]
視覚変換器(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、コンピュータビジョンタスクにおいて優れた精度を示す。
ハードウェア指向の量子化対応アーキテクチャ検索フレームワークであるQuasar-ViTを提案する。
論文 参考訳(メタデータ) (2024-07-25T16:35:46Z) - P$^2$-ViT: Power-of-Two Post-Training Quantization and Acceleration for Fully Quantized Vision Transformer [8.22044535304182]
ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクでは優れているが、メモリ消費と計算集約性がある。
この制限に対処するため、従来の研究はViT調整量子化アルゴリズムを探索してきたが、浮動小数点スケーリング係数は保たれた。
本稿では,最初のアンダーラインPower-of-Two(PoT)アンダーラインポストトレーニング量子化およびアクセラレーションフレームワークであるemphP$2$-ViTを提案する。
論文 参考訳(メタデータ) (2024-05-30T10:26:36Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - ViTCoD: Vision Transformer Acceleration via Dedicated Algorithm and
Accelerator Co-Design [42.46121663652989]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクにおいて最先端のパフォーマンスを実現している。
しかし、ViTsの自己保持モジュールは依然として大きなボトルネックである。
本稿では,ViTの高速化を目的とした,ViTCoDと呼ばれる専用アルゴリズムとアクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T04:07:23Z) - Auto-ViT-Acc: An FPGA-Aware Automatic Acceleration Framework for Vision
Transformer with Mixed-Scheme Quantization [78.18328503396057]
コンピュータビジョンタスクにおいて、視覚変換器(ViT)は大幅に精度が向上している。
本研究は,提案した混合スキーム量子化に基づくFPGA対応自動ViT加速フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-10T05:54:46Z) - VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit
Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。
モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。
FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文 参考訳(メタデータ) (2022-01-17T20:27:52Z) - SPViT: Enabling Faster Vision Transformers via Soft Token Pruning [38.10083471492964]
ハードウェア効率の伝統的なモデル圧縮パラダイムであるPruningは、様々なDNN構造に広く応用されている。
平板およびCNN型構造のバニラ変圧器に設定できる計算対応ソフトプルーニングフレームワークを提案する。
我々のフレームワークは、画像分類に匹敵する性能を維持しながら、ViTの計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2021-12-27T20:15:25Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。