論文の概要: Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems
- arxiv url: http://arxiv.org/abs/2303.12557v3
- Date: Fri, 17 May 2024 01:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 20:53:07.320141
- Title: Q-HyViT: Post-Training Quantization of Hybrid Vision Transformers with Bridge Block Reconstruction for IoT Systems
- Title(参考訳): Q-HyViT:IoTシステムのためのブリッジブロック再構成によるハイブリッドビジョントランスのポストトレーニング量子化
- Authors: Jemin Lee, Yongin Kwon, Sihyeong Park, Misun Yu, Jeman Park, Hwanjun Song,
- Abstract要約: 視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのアプリケーションで畳み込みニューラルネットワークに取って代わられている。
本稿では,効率的なハイブリッドViTの量子化を初めて行うポストトレーニング量子化手法を提案する。
従来のPTQ法と比較して, 8ビットで17.73%, 6ビットで29.75%の大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 23.261607952479377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, vision transformers (ViTs) have superseded convolutional neural networks in numerous applications, including classification, detection, and segmentation. However, the high computational requirements of ViTs hinder their widespread implementation. To address this issue, researchers have proposed efficient hybrid transformer architectures that combine convolutional and transformer layers with optimized attention computation of linear complexity. Additionally, post-training quantization has been proposed as a means of mitigating computational demands. For mobile devices, achieving optimal acceleration for ViTs necessitates the strategic integration of quantization techniques and efficient hybrid transformer structures. However, no prior investigation has applied quantization to efficient hybrid transformers. In this paper, we discover that applying existing post-training quantization (PTQ) methods for ViTs to efficient hybrid transformers leads to a drastic accuracy drop, attributed to the four following challenges: (i) highly dynamic ranges, (ii) zero-point overflow, (iii) diverse normalization, and (iv) limited model parameters ($<$5M). To overcome these challenges, we propose a new post-training quantization method, which is the first to quantize efficient hybrid ViTs (MobileViTv1, MobileViTv2, Mobile-Former, EfficientFormerV1, EfficientFormerV2). We achieve a significant improvement of 17.73% for 8-bit and 29.75% for 6-bit on average, respectively, compared with existing PTQ methods (EasyQuant, FQ-ViT, PTQ4ViT, and RepQ-ViT)}. We plan to release our code at https://gitlab.com/ones-ai/q-hyvit.
- Abstract(参考訳): 近年、視覚変換器(ViT)は、分類、検出、セグメンテーションを含む多くのアプリケーションで畳み込みニューラルネットワークに取って代わられている。
しかし、ViTsの高い計算要求は、その広範な実装を妨げる。
この問題に対処するため、研究者らは、畳み込み層と変圧器層を組み合わせた効率的なハイブリッドトランスフォーマーアーキテクチャを提案し、線形複雑性の最適化された注意計算を行った。
さらに、計算要求を緩和する手段として、後学習量子化法が提案されている。
モバイルデバイスでは、ViTの最適加速を達成するには、量子化技術と効率的なハイブリッドトランスフォーマー構造の戦略的統合が必要である。
しかし、効率的なハイブリッドトランスに量子化を適用した以前の研究はない。
本稿では,ViTの既存の学習後量子化(PTQ)手法をハイブリットトランスフォーマーに応用することで,次の4つの課題に起因して,大幅な精度低下につながることを明らかにする。
(i)非常にダイナミックな範囲
(ii)ゼロ点オーバーフロー
(三)多彩な正規化、及び
(4)限定モデルパラメータ($5M)。
これらの課題を克服するために,効率的なハイブリッドViT(MobileViTv1,MobileViTv2,Mobile-Former,EfficientFormerV1,EfficientFormerV2)を量子化する新しいポストトレーニング量子化法を提案する。
従来のPTQ法(EasyQuant, FQ-ViT, PTQ4ViT, RepQ-ViT)}と比較すると, 8ビットで17.73%, 6ビットで29.75%の大幅な改善を実現している。
コードをhttps://gitlab.com/ones-ai/q-hyvit.comでリリースする予定です。
関連論文リスト
- AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation [23.00085349135532]
ポストトレーニング量子化(PTQ)は、メモリコストと計算複雑性を低減する効果的な方法である。
既存の拡散量子化手法をU-Netに適用することは品質維持の課題に直面している。
我々は、新しい距離分離型混合精度量子化法(ViDiT-Q-MP)により、ViDiT-Qを改善する。
論文 参考訳(メタデータ) (2024-06-04T17:57:10Z) - Towards Next-Level Post-Training Quantization of Hyper-Scale
Transformers [10.883809442514135]
トレーニング後の量子化(PTQ)は、モバイルデバイスやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T05:58:43Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of
Post-Training ViTs Quantization [63.07712842509526]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - FQ-ViT: Fully Quantized Vision Transformer without Retraining [13.82845665713633]
本稿では,量子変換器の性能劣化と推論の複雑さを低減するための系統的手法を提案する。
完全に量子化された視覚変換器上で、我々は初めて精度の劣化(1%)を達成した。
論文 参考訳(メタデータ) (2021-11-27T06:20:53Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。