論文の概要: AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers
- arxiv url: http://arxiv.org/abs/2502.04628v1
- Date: Fri, 07 Feb 2025 03:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:35.849727
- Title: AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers
- Title(参考訳): AIQViT:視覚変換器のアーキテクチャインフォームド後量子化
- Authors: Runqing Jiang, Ye Zhang, Longguang Wang, Pengpeng Yu, Yulan Guo,
- Abstract要約: 後学習量子化(PTQ)は、視覚変換器(ViTs)の記憶と計算コストを削減するための有望なソリューションとして登場した。
AIQViT (Architecture-Informed Post-training Quantization for ViTs) と呼ばれる ViT に適した PTQ 手法を提案する。
- 参考スコア(独自算出の注目度): 42.535119270045605
- License:
- Abstract: Post-training quantization (PTQ) has emerged as a promising solution for reducing the storage and computational cost of vision transformers (ViTs). Recent advances primarily target at crafting quantizers to deal with peculiar activations characterized by ViTs. However, most existing methods underestimate the information loss incurred by weight quantization, resulting in significant performance deterioration, particularly in low-bit cases. Furthermore, a common practice in quantizing post-Softmax activations of ViTs is to employ logarithmic transformations, which unfortunately prioritize less informative values around zero. This approach introduces additional redundancies, ultimately leading to suboptimal quantization efficacy. To handle these, this paper proposes an innovative PTQ method tailored for ViTs, termed AIQViT (Architecture-Informed Post-training Quantization for ViTs). First, we design an architecture-informed low rank compensation mechanism, wherein learnable low-rank weights are introduced to compensate for the degradation caused by weight quantization. Second, we design a dynamic focusing quantizer to accommodate the unbalanced distribution of post-Softmax activations, which dynamically selects the most valuable interval for higher quantization resolution. Extensive experiments on five vision tasks, including image classification, object detection, instance segmentation, point cloud classification, and point cloud part segmentation, demonstrate the superiority of AIQViT over state-of-the-art PTQ methods.
- Abstract(参考訳): 後学習量子化(PTQ)は、視覚変換器(ViT)の記憶と計算コストを削減するための有望なソリューションとして登場した。
近年の進歩は、ViTを特徴とする特異なアクティベーションを扱うための量子化器の製作を主なターゲットとしている。
しかし、既存のほとんどの手法は、重量量子化による情報損失を過小評価しており、特に低ビットの場合において、性能が著しく低下する。
さらに、ViTsのソフトマックス後のアクティベーションを定量化する一般的な方法は対数変換を採用することである。
このアプローチはさらなる冗長性を導入し、最終的には準最適量子化効果をもたらす。
そこで本論文では,AIQViT(Architecture-Informed Post-training Quantization for ViTs)と呼ばれる,ViT向けに設計された革新的なPTQ手法を提案する。
まず,重み量子化による劣化を補うために,学習可能な低ランクウェイトを導入したアーキテクチャインフォームド低ランク補償機構を設計する。
第2に、ソフトマックス後のアクティベーションの不均衡分布に対応するために動的集束量子化器を設計し、高い量子化分解能のために最も価値のある区間を動的に選択する。
画像分類、オブジェクト検出、インスタンスセグメンテーション、ポイントクラウド分類、ポイントクラウド部分セグメンテーションを含む5つのビジョンタスクに関する大規模な実験は、最先端のPTQ法よりもAIQViTの方が優れていることを示す。
関連論文リスト
- DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [2.0862654518798034]
本稿では,視覚変換器のための分散親和性・外乱性を考慮したポストトレーニング量子化手法を提案する。
DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。
DopQ-ViTは広範囲に検証され、量子化モデルの性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-06T16:40:04Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - I&S-ViT: An Inclusive & Stable Method for Pushing the Limit of Post-Training ViTs Quantization [49.17407185195788]
我々は,ViTのPTQを包括的かつ安定した方法で制御する新しい手法であるI&S-ViTを紹介する。
I&S-ViTは3ビットのViT-Bの性能を50.68%向上させた。
論文 参考訳(メタデータ) (2023-11-16T13:07:47Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization
for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。
理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。
NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-11-29T10:02:09Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。