Fugu-MT 論文翻訳(概要): Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

論文の概要: Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation

arxiv url: http://arxiv.org/abs/2602.18861v1
Date: Sat, 21 Feb 2026 15:02:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.362651
Title: Joint Post-Training Quantization of Vision Transformers with Learned Prompt-Guided Data Generation
Title（参考訳）: 学習したPrompt-Guidedデータ生成による視覚変換器の学習後量子化
Authors: Shile Li, Markus Karmann, Onay Urfalioglu,
Abstract要約: 我々は、ImageNetで訓練されたビジョントランスフォーマーの合体量子化のためのフレームワークを提案する。我々はImageNet上で最先端のW4A4とW3A3の精度を実現する。また,ラベルのない多種多様なサンプルを合成するデータフリーキャリブレーション手法を導入する。
参考スコア（独自算出の注目度）: 5.75627633588113
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a framework for end-to-end joint quantization of Vision Transformers trained on ImageNet for the purpose of image classification. Unlike prior post-training or block-wise reconstruction methods, we jointly optimize over the entire set of all layers and inter-block dependencies without any labeled data, scaling effectively with the number of samples and completing in just one hour on a single GPU for ViT-small. We achieve state-of-the-art W4A4 and W3A3 accuracies on ImageNet and, to the best of our knowledge, the first PTQ results that maintain strong accuracy on ViT, DeiT, and Swin-T models under extremely low-bit settings (W1.58A8), demonstrating the potential for efficient edge deployment. Furthermore, we introduce a data-free calibration strategy that synthesizes diverse, label-free samples using Stable Diffusion Turbo guided by learned multi-mode prompts. By encouraging diversity in both the learned prompt embeddings and the generated image features, our data-free approach achieves performance on par with real-data ImageNet calibration and surpasses simple text-prompt baselines such as "a <adjective> photo of <adjective> <cls>".
Abstract（参考訳）: 本稿では、画像分類のためにImageNetで訓練されたビジョントランスフォーマーのエンドツーエンドのジョイント量子化のためのフレームワークを提案する。事前のトレーニングやブロック単位の再構築方法とは異なり、ラベル付きデータなしですべてのレイヤとブロック間の依存関係全体を共同で最適化し、サンプル数と効果的にスケーリングし、ViT-small用の1つのGPUで1時間で完了します。我々はImageNet上で最先端のW4A4とW3A3の精度を実現し、私たちの知る限り、ViT、DeiT、Swin-Tモデルに対して極めて低ビット設定(W1.58A8)で高い精度を維持する最初のPTQ結果を得ることができ、効率的なエッジデプロイメントの可能性を示している。さらに,学習したマルチモードプロンプトによって誘導される安定拡散ターボを用いて,多様なラベルのないサンプルを合成するデータフリーキャリブレーション手法を提案する。学習したプロンプト埋め込みと生成された画像特徴の両方の多様性を奨励することにより,データフリーアプローチは実データ画像Netキャリブレーションと同等のパフォーマンスを実現し,<adjective> <cls>の<adjective>写真のような単純なテキストプロンプトベースラインを超越する。

関連論文リスト

Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers [58.80845404416028]
データフリー量子化(DFQ)は、実際のデータにアクセスせずにモデル量子化を可能にし、データのセキュリティとプライバシに関する懸念に対処する。ビジョントランスフォーマー(ViTs)の普及に伴い、ViTsのDFQは大きな注目を集めている。本稿では,新しいセマンティックアライメントと強化データ自由化手法であるSARDFQを提案する。
論文参考訳（メタデータ） (2024-12-21T09:30:45Z)
Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation [67.37146712877794]
IT3Aは、未知の新しいドメインから各テストサンプルをマルチモーダル拡張するために、事前訓練された生成モデルを利用する新しいテスト時間適応手法である。事前学習された視覚と言語モデルからの強化されたデータを組み合わせることで、未知の新しいテストデータに適応するモデルの能力を高めることができる。ゼロショット設定では、IT3Aは5.50%の精度で最先端のテスト時間プロンプトチューニング手法より優れている。
論文参考訳（メタデータ） (2024-12-12T20:01:24Z)
Semantic Graph Consistency: Going Beyond Patches for Regularizing Self-Supervised Vision Transformers [5.359378066251386]
視覚変換器(ViT)を用いた自己教師型学習は表現学習に有効であることが証明されている。既存のViTベースのSSLアーキテクチャは、ViTバックボーンを完全に活用していない。本稿では,ViTベースのSSLメソッドを標準化し,パッチトークンを効果的に活用するための新しいセマンティックグラフ一貫性(SGC)モジュールを提案する。
論文参考訳（メタデータ） (2024-06-18T06:36:44Z)
Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文参考訳（メタデータ） (2024-02-29T12:18:43Z)
Progressive Learning with Visual Prompt Tuning for Variable-Rate Image Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文参考訳（メタデータ） (2023-11-23T08:29:32Z)
Robust Cross-Modal Representation Learning with Progressive Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-04-10T03:28:18Z)
Plug-In Inversion: Model-Agnostic Inversion for Vision with Data Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。 ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文参考訳（メタデータ） (2022-01-31T02:12:45Z)
LiT: Zero-Shot Transfer with Locked-image Text Tuning [68.78877201319811]
『Locked-image Text tuning』(LiT-tuning)は、新しいタスクのための事前訓練された画像モデルから良い表現を読み取るためのテキストモデルである。 LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。
論文参考訳（メタデータ） (2021-11-15T18:53:48Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)
Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文参考訳（メタデータ） (2021-03-19T03:55:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。