論文の概要: APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers
- arxiv url: http://arxiv.org/abs/2504.02508v1
- Date: Thu, 03 Apr 2025 11:48:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:25.530055
- Title: APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers
- Title(参考訳): APHQ-ViT:平均摂動ヘシアンを用いた視覚変換器の学習後量子化
- Authors: Zhuguanyu Wu, Jiayi Zhang, Jiaxin Chen, Jinyang Guo, Di Huang, Yunhong Wang,
- Abstract要約: 平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。
本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
- 参考スコア(独自算出の注目度): 71.2294205496784
- License:
- Abstract: Vision Transformers (ViTs) have become one of the most commonly used backbones for vision tasks. Despite their remarkable performance, they often suffer significant accuracy drops when quantized for practical deployment, particularly by post-training quantization (PTQ) under ultra-low bits. Recently, reconstruction-based PTQ methods have shown promising performance in quantizing Convolutional Neural Networks (CNNs). However, they fail when applied to ViTs, primarily due to the inaccurate estimation of output importance and the substantial accuracy degradation in quantizing post-GELU activations. To address these issues, we propose \textbf{APHQ-ViT}, a novel PTQ approach based on importance estimation with Average Perturbation Hessian (APH). Specifically, we first thoroughly analyze the current approximation approaches with Hessian loss, and propose an improved average perturbation Hessian loss. To deal with the quantization of the post-GELU activations, we design an MLP Reconstruction (MR) method by replacing the GELU function in MLP with ReLU and reconstructing it by the APH loss on a small unlabeled calibration set. Extensive experiments demonstrate that APHQ-ViT using linear quantizers outperforms existing PTQ methods by substantial margins in 3-bit and 4-bit across different vision tasks. The source code is available at https://github.com/GoatWu/APHQ-ViT.
- Abstract(参考訳): ビジョントランスフォーマー (ViT) は視覚タスクのバックボーンとして最もよく使われる。
その顕著な性能にもかかわらず、実際的な展開のために量子化されるとき、特に超低ビットの後の量子化(PTQ)によって、かなりの精度の低下を被ることが多い。
近年,再構成に基づくPTQ手法は,畳み込みニューラルネットワーク(CNN)の量子化において有望な性能を示した。
しかし、これは主に出力重要度の不正確な推定とGELU後のアクティベーションの定量化における相当な精度劣化のために、ViTに適用されたときに失敗する。
これらの問題に対処するために,平均摂動ヘッセン (APH) を用いた重要度推定に基づく新しいPTQ手法である \textbf{APHQ-ViT} を提案する。
具体的には、まず、Hessian損失による現在の近似手法を徹底的に分析し、Hessian損失の平均摂動率の改善を提案する。
GELU後のアクティベーションの定量化に対処するため,MLPのGELU関数をReLUに置き換え,未ラベルのキャリブレーションセットのAPH損失により再構成することで,MR法を設計する。
大規模な実験により、線形量子化器を用いたAPHQ-ViTは、様々な視覚タスクにおいて3ビットと4ビットのかなりのマージンで既存のPTQ法より優れていることが示された。
ソースコードはhttps://github.com/GoatWu/APHQ-ViT.comで入手できる。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - AIQViT: Architecture-Informed Post-Training Quantization for Vision Transformers [42.535119270045605]
後学習量子化(PTQ)は、視覚変換器(ViTs)の記憶と計算コストを削減するための有望なソリューションとして登場した。
AIQViT (Architecture-Informed Post-training Quantization for ViTs) と呼ばれる ViT に適した PTQ 手法を提案する。
論文 参考訳(メタデータ) (2025-02-07T03:04:50Z) - Progressive Fine-to-Coarse Reconstruction for Accurate Low-Bit Post-Training Quantization in Vision Transformers [13.316135182889296]
後トレーニング量子化(PTQ)は視覚変換器(ViT)の圧縮に広く採用されている。
低ビット表現に量子化されると、完全精度の表現に比べて大きな性能低下がしばしば起こる。
低ビット量子化ビジョントランスの性能を大幅に向上させるPFCR法を提案する。
論文 参考訳(メタデータ) (2024-12-19T08:38:59Z) - DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [2.0862654518798034]
本稿では,視覚変換器のための分散親和性・外乱性を考慮したポストトレーニング量子化手法を提案する。
DopQ-ViTは、現在の量子化器の非効率性を分析し、TanQと呼ばれる分布に優しいタン量子化器を導入する。
DopQ-ViTは広範囲に検証され、量子化モデルの性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-06T16:40:04Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。
現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。
本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文 参考訳(メタデータ) (2024-07-09T12:06:03Z) - ADFQ-ViT: Activation-Distribution-Friendly Post-Training Quantization for Vision Transformers [7.155242379236052]
ビジョントランスフォーマー(ViT)の量子化は、これらの課題を緩和するための有望なソリューションとして現れている。
既存の手法は依然として低ビットでの精度の低下に悩まされている。
ADFQ-ViTは、画像分類、オブジェクト検出、および4ビットでのインスタンスセグメンテーションタスクにおいて、様々なベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2024-07-03T02:41:59Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。