論文の概要: Q-HyViT: Post-Training Quantization for Hybrid Vision Transformer with
Bridge Block Reconstruction
- arxiv url: http://arxiv.org/abs/2303.12557v1
- Date: Wed, 22 Mar 2023 13:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:06:50.474393
- Title: Q-HyViT: Post-Training Quantization for Hybrid Vision Transformer with
Bridge Block Reconstruction
- Title(参考訳): Q-HyViT:ブリッジブロックを用いたハイブリッドビジョントランスのポストトレーニング量子化
- Authors: Jemin Lee, Yongin Kwon, Jeman Park, Misun Yu, Hwanjun Song
- Abstract要約: 視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのタスクで畳み込みニューラルネットワークモデルを置き換える。
本稿では,効率的なハイブリッドビジョン変換器の量子化を初めて行う,学習後の量子化手法を提案する。
- 参考スコア(独自算出の注目度): 20.807729451989783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, vision transformers (ViT) have replaced convolutional neural
network models in numerous tasks, including classification, detection, and
segmentation. However, the high computational requirements of ViTs hinder their
widespread implementation. To address this issue, researchers have proposed
efficient hybrid transformer architectures that combine convolutional and
transformer layers and optimize attention computation for linear complexity.
Additionally, post-training quantization has been proposed as a means of
mitigating computational demands. Combining quantization techniques and
efficient hybrid transformer structures is crucial to maximize the acceleration
of vision transformers on mobile devices. However, no prior investigation has
applied quantization to efficient hybrid transformers. In this paper, at first,
we discover that the straightforward manner to apply the existing PTQ methods
for ViT to efficient hybrid transformers results in a drastic accuracy drop due
to the following challenges: (i) highly dynamic ranges, (ii) zero-point
overflow, (iii) diverse normalization, and (iv) limited model parameters (<5M).
To overcome these challenges, we propose a new post-training quantization
method, which is the first to quantize efficient hybrid vision transformers
(MobileViTv1 and MobileViTv2) with a significant margin (an average improvement
of 7.75%) compared to existing PTQ methods (EasyQuant, FQ-ViT, and PTQ4ViT). We
plan to release our code at https://github.com/Q-HyViT.
- Abstract(参考訳): 近年、視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのタスクで畳み込みニューラルネットワークモデルを置き換えている。
しかし、ViTの高い計算要求は、その広範な実装を妨げる。
この問題に対処するため、研究者たちは畳み込み層とトランスフォーマー層を結合し、線形複雑性に対する注意計算を最適化する効率的なハイブリッドトランスフォーマアーキテクチャを提案している。
さらに、計算要求を軽減する手段として、ポストトレーニング量子化が提案されている。
モバイルデバイス上での視覚変換器の加速を最大化するために,量子化技術と効率的なハイブリッドトランス構造を組み合わせることが重要である。
しかし、効率的なハイブリッドトランスに量子化を適用した以前の研究はない。
本稿では、まず、ViT の既存の PTQ 手法を効率的なハイブリッドトランスに適用する方法が、以下の課題により大幅に精度が低下することを発見した。
(i)非常にダイナミックな範囲
(ii)ゼロポイントオーバーフロー。
(iii)多様な正規化、及び
(iv)限定されたモデルパラメータ(<5m)
これらの課題を克服するために、既存のPTQ法(EasyQuant, FQ-ViT, PTQ4ViT)と比較して、有意なマージン(平均7.75%)で効率的なハイブリッドビジョン変換器(MobileViTv1, MobileViTv2)を量子化する新しいポストトレーニング量子化法を提案する。
コードをhttps://github.com/Q-HyViT.comでリリースする予定です。
関連論文リスト
- M$^2$-ViT: Accelerating Hybrid Vision Transformers with Two-Level Mixed Quantization [3.9784270129141377]
We present M$2-ViT to accelerate Convolution-Transformer hybrid ViTs with two-level mixed Quantization。
具体的には、混合量子化精度と混合量子化スキームの両方を特徴とする、ハードウェアフレンドリーな2レベル混合量子化戦略(M$2$Q)を導入する。
論文 参考訳(メタデータ) (2024-10-10T11:16:57Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.00085349135532]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
既存の拡散量子化手法をU-Netに適用することは品質維持の課題に直面している。
我々は、新しい距離分離型混合精度量子化法(ViDiT-Q-MP)により、ViDiT-Qを改善する。
論文 参考訳(メタデータ) (2024-06-04T17:57:10Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization [49.17407185195788]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。