論文の概要: FQ-ViT: Fully Quantized Vision Transformer without Retraining
- arxiv url: http://arxiv.org/abs/2111.13824v1
- Date: Sat, 27 Nov 2021 06:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:12:26.272572
- Title: FQ-ViT: Fully Quantized Vision Transformer without Retraining
- Title(参考訳): FQ-ViT:リトレーニングなし完全量子化ビジョントランス
- Authors: Yang Lin, Tianyu Zhang, Peiqin Sun, Zheng Li, Shuchang Zhou
- Abstract要約: 本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
- 参考スコア(独自算出の注目度): 13.82845665713633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Network quantization significantly reduces model inference complexity and has
been widely used in real-world deployments. However, most existing quantization
methods have been developed and tested mainly on Convolutional Neural Networks
(CNN), and suffer severe degradation when applied to Transformer-based
architectures. In this work, we present a systematic method to reduce the
performance degradation and inference complexity of Quantized Transformers. In
particular, we propose Powers-of-Two Scale (PTS) to deal with the serious
inter-channel variation of LayerNorm inputs in a hardware-friendly way. In
addition, we propose Log-Int-Softmax (LIS) that can sustain the extreme
non-uniform distribution of the attention maps while simplifying inference by
using 4-bit quantization and the BitShift operator. Comprehensive experiments
on various Transformer-based architectures and benchmarks show that our methods
outperform previous works in performance while using even lower bit-width in
attention maps. For instance, we reach 85.17% Top-1 accuracy with ViT-L on
ImageNet and 51.4 mAP with Cascade Mask R-CNN (Swin-S) on COCO. To our
knowledge, we are the first to achieve comparable accuracy degradation (~1%) on
fully quantized Vision Transformers. Code is available at
https://github.com/linyang-zhh/FQ-ViT.
- Abstract(参考訳): ネットワーク量子化はモデル推論の複雑さを大幅に減らし、現実世界のデプロイメントで広く利用されている。
しかし、既存の量子化手法の多くは畳み込みニューラルネットワーク(cnn)を中心に開発・テストされており、トランスフォーマーベースのアーキテクチャに適用すると深刻な劣化を被っている。
本研究では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
特に、ハードウェアフレンドリーな方法でLayerNorm入力のチャネル間重大変動に対処するために、Powers-of-Two Scale (PTS)を提案する。
さらに,4ビット量子化とビットシフト演算子を用いて推論を簡素化しながら,注目マップの非一様分布を極端に維持できるLog-Int-Softmax(LIS)を提案する。
様々なTransformerベースのアーキテクチャとベンチマークに関する総合的な実験により,本手法はアテンションマップのビット幅をさらに小さくして,従来の手法よりも優れた性能を示した。
例えば、ImageNetではViT-Lで85.17%、COCOではCascade Mask R-CNN(Swin-S)で51.4mAPに達しています。
我々の知る限り、完全に量子化された視覚変換器上で、我々は初めて、比較精度の劣化(~1%)を達成した。
コードはhttps://github.com/linyang-zhh/fq-vitで入手できる。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Pruning By Explaining Revisited: Optimizing Attribution Methods to Prune CNNs and Transformers [14.756988176469365]
計算要求の削減と効率の向上のための効果的なアプローチは、ディープニューラルネットワークの不要なコンポーネントを創り出すことである。
これまでの研究では、eXplainable AIの分野からの帰属法が、最も関係の低いネットワークコンポーネントを数ショットで抽出し、プルークする効果的な手段であることが示された。
論文 参考訳(メタデータ) (2024-08-22T17:35:18Z) - ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Incorporating Convolution Designs into Visual Transformers [24.562955955312187]
我々は、低レベル特徴抽出におけるCNNの利点、局所性の向上、長距離依存の確立におけるトランスフォーマーの利点を組み合わせた新しいtextbfConvolution-enhanced image Transformer (CeiT) を提案する。
ImageNetと7つの下流タスクの実験結果は、大量のトレーニングデータや追加のCNN教師を必要とすることなく、従来のトランスフォーマーや最先端CNNと比較してCeiTの有効性と一般化能力を示している。
論文 参考訳(メタデータ) (2021-03-22T13:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。