論文の概要: DFQ-ViT: Data-Free Quantization for Vision Transformers without Fine-tuning
- arxiv url: http://arxiv.org/abs/2507.14481v1
- Date: Sat, 19 Jul 2025 04:32:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.906514
- Title: DFQ-ViT: Data-Free Quantization for Vision Transformers without Fine-tuning
- Title(参考訳): DFQ-ViT:微調整のない視覚変換器のデータフリー量子化
- Authors: Yujia Tong, Jingling Yuan, Tian Zhang, Jianquan Liu, Chuang Hu,
- Abstract要約: データフリー量子化(DFQ)は、データへのアクセスを必要とせずにビジョントランスフォーマー(ViT)の量子化を可能にし、限られたリソースを持つデバイスにViTをデプロイすることを可能にする。
既存の手法では、サンプル内のグローバルな特徴とローカルな特徴を完全にキャプチャしてバランスをとることができず、結果として合成データの品質が制限される。
視覚変換用データフリー量子化パイプライン(DFQ-ViT)を提案する。
- 参考スコア(独自算出の注目度): 9.221916791064407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-Free Quantization (DFQ) enables the quantization of Vision Transformers (ViTs) without requiring access to data, allowing for the deployment of ViTs on devices with limited resources. In DFQ, the quantization model must be calibrated using synthetic samples, making the quality of these synthetic samples crucial. Existing methods fail to fully capture and balance the global and local features within the samples, resulting in limited synthetic data quality. Moreover, we have found that during inference, there is a significant difference in the distributions of intermediate layer activations between the quantized and full-precision models. These issues lead to a severe performance degradation of the quantized model. To address these problems, we propose a pipeline for Data-Free Quantization for Vision Transformers (DFQ-ViT). Specifically, we synthesize samples in order of increasing difficulty, effectively enhancing the quality of synthetic data. During the calibration and inference stage, we introduce the activation correction matrix for the quantized model to align the intermediate layer activations with those of the full-precision model. Extensive experiments demonstrate that DFQ-ViT achieves remarkable superiority over existing DFQ methods and its performance is on par with models quantized through real data. For example, the performance of DeiT-T with 3-bit weights quantization is 4.29% higher than the state-of-the-art. Our method eliminates the need for fine-tuning, which not only reduces computational overhead but also lowers the deployment barriers for edge devices. This characteristic aligns with the principles of Green Learning by improving energy efficiency and facilitating real-world applications in resource-constrained environments.
- Abstract(参考訳): データフリー量子化(DFQ)は、データへのアクセスを必要とせずにビジョントランスフォーマー(ViT)の量子化を可能にし、限られたリソースを持つデバイスにViTをデプロイすることを可能にする。
DFQでは、量子化モデルを合成試料を用いて校正する必要があるため、これらの合成試料の品質が不可欠である。
既存の手法では、サンプル内のグローバルな特徴とローカルな特徴を完全にキャプチャしてバランスをとることができず、結果として合成データの品質が制限される。
さらに、推論中は、量子化モデルと完全精度モデルの間に中間層活性化の分布に有意な差があることが判明した。
これらの問題により、量子化モデルの性能が大幅に低下する。
これらの問題に対処するために、視覚変換のためのデータ自由量子化パイプライン(DFQ-ViT)を提案する。
具体的には, 難易度を高めるために試料を合成し, 合成データの質を効果的に向上させる。
キャリブレーションと推論の段階では、中間層の活性化を全精度モデルと整合させるために、量子化モデルのアクティベーション補正行列を導入する。
大規模実験により,DFQ-ViTは既存のDFQ法よりも顕著に優れており,実データによる数値化モデルと同等の性能を示した。
例えば、3ビットの量子化を持つDeiT-Tの性能は最先端よりも4.29%高い。
提案手法は微調整の必要性を排除し,計算オーバーヘッドを削減するだけでなく,エッジデバイスの配置障壁を低くする。
この特徴は、エネルギー効率を改善し、資源制約環境における現実世界の応用を促進することで、グリーンラーニングの原則と一致している。
関連論文リスト
- DopQ-ViT: Towards Distribution-Friendly and Outlier-Aware Post-Training Quantization for Vision Transformers [31.791935689364866]
視覚変換器(ViT)のためのDopQ-ViTを提案する。
第一に、DopQ-ViTはTan Quantizer (TanQ)を導入している。
第2に、DopQ-ViT は MAD-Guided Optimal Scaling Factor (MOSF) を提示する。
論文 参考訳(メタデータ) (2024-08-06T16:40:04Z) - GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples [46.025105938192624]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
論文 参考訳(メタデータ) (2023-05-13T14:48:09Z) - Post-training Model Quantization Using GANs for Synthetic Data
Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。
本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文 参考訳(メタデータ) (2023-05-10T11:10:09Z) - Hard Sample Matters a Lot in Zero-Shot Quantization [52.32914196337281]
ゼロショット量子化(ZSQ)は、完全精度モデルのトレーニング用データがアクセスできない場合に、ディープニューラルネットワークの圧縮と加速を約束する。
ZSQでは、合成サンプルを用いてネットワーク量子化を行うため、量子化モデルの性能は合成サンプルの品質に大きく依存する。
この問題に対処するために,HArdサンプル合成訓練(HAST)を提案する。
論文 参考訳(メタデータ) (2023-03-24T06:22:57Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。
本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。
PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文 参考訳(メタデータ) (2022-03-04T11:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。