論文の概要: Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation
- arxiv url: http://arxiv.org/abs/2602.18861v1
- Date: Sat, 21 Feb 2026 15:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.362651
- Title: Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation
- Title(参考訳): 学習したPrompt-Guidedデータ生成による視覚変換器の学習後量子化
- Authors: Shile Li, Markus Karmann, Onay Urfalioglu,
- Abstract要約: 我々は、ImageNetで訓練されたビジョントランスフォーマーの合体量子化のためのフレームワークを提案する。
我々はImageNet上で最先端のW4A4とW3A3の精度を実現する。
また,ラベルのない多種多様なサンプルを合成するデータフリーキャリブレーション手法を導入する。
- 参考スコア(独自算出の注目度): 5.75627633588113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for end-to-end joint quantization of Vision Transformers trained on ImageNet for the purpose of image classification. Unlike prior post-training or block-wise reconstruction methods, we jointly optimize over the entire set of all layers and inter-block dependencies without any labeled data, scaling effectively with the number of samples and completing in just one hour on a single GPU for ViT-small. We achieve state-of-the-art W4A4 and W3A3 accuracies on ImageNet and, to the best of our knowledge, the first PTQ results that maintain strong accuracy on ViT, DeiT, and Swin-T models under extremely low-bit settings (W1.58A8), demonstrating the potential for efficient edge deployment. Furthermore, we introduce a data-free calibration strategy that synthesizes diverse, label-free samples using Stable Diffusion Turbo guided by learned multi-mode prompts. By encouraging diversity in both the learned prompt embeddings and the generated image features, our data-free approach achieves performance on par with real-data ImageNet calibration and surpasses simple text-prompt baselines such as "a <adjective> photo of <adjective> <cls>".
- Abstract(参考訳): 本稿では、画像分類のためにImageNetで訓練されたビジョントランスフォーマーのエンドツーエンドのジョイント量子化のためのフレームワークを提案する。
事前のトレーニングやブロック単位の再構築方法とは異なり、ラベル付きデータなしですべてのレイヤとブロック間の依存関係全体を共同で最適化し、サンプル数と効果的にスケーリングし、ViT-small用の1つのGPUで1時間で完了します。
我々はImageNet上で最先端のW4A4とW3A3の精度を実現し、私たちの知る限り、ViT、DeiT、Swin-Tモデルに対して極めて低ビット設定(W1.58A8)で高い精度を維持する最初のPTQ結果を得ることができ、効率的なエッジデプロイメントの可能性を示している。
さらに,学習したマルチモードプロンプトによって誘導される安定拡散ターボを用いて,多様なラベルのないサンプルを合成するデータフリーキャリブレーション手法を提案する。
学習したプロンプト埋め込みと生成された画像特徴の両方の多様性を奨励することにより,データフリーアプローチは実データ画像Netキャリブレーションと同等のパフォーマンスを実現し,<adjective> <cls>の<adjective>写真のような単純なテキストプロンプトベースラインを超越する。
関連論文リスト
- Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers [58.80845404416028]
データフリー量子化(DFQ)は、実際のデータにアクセスせずにモデル量子化を可能にし、データのセキュリティとプライバシに関する懸念に対処する。
ビジョントランスフォーマー(ViTs)の普及に伴い、ViTsのDFQは大きな注目を集めている。
本稿では,新しいセマンティックアライメントと強化データ自由化手法であるSARDFQを提案する。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation [67.37146712877794]
IT3Aは、未知の新しいドメインから各テストサンプルをマルチモーダル拡張するために、事前訓練された生成モデルを利用する新しいテスト時間適応手法である。
事前学習された視覚と言語モデルからの強化されたデータを組み合わせることで、未知の新しいテストデータに適応するモデルの能力を高めることができる。
ゼロショット設定では、IT3Aは5.50%の精度で最先端のテスト時間プロンプトチューニング手法より優れている。
論文 参考訳(メタデータ) (2024-12-12T20:01:24Z) - Semantic Graph Consistency: Going Beyond Patches for Regularizing Self-Supervised Vision Transformers [5.359378066251386]
視覚変換器(ViT)を用いた自己教師型学習は表現学習に有効であることが証明されている。
既存のViTベースのSSLアーキテクチャは、ViTバックボーンを完全に活用していない。
本稿では,ViTベースのSSLメソッドを標準化し,パッチトークンを効果的に活用するための新しいセマンティックグラフ一貫性(SGC)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-18T06:36:44Z) - Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。