論文の概要: D4C: Data-free Quantization for Contrastive Language-Image Pre-training Models
- arxiv url: http://arxiv.org/abs/2511.15411v1
- Date: Wed, 19 Nov 2025 13:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.814348
- Title: D4C: Data-free Quantization for Contrastive Language-Image Pre-training Models
- Title(参考訳): D4C: コントラスト言語画像事前学習モデルのためのデータフリー量子化
- Authors: Wenlun Zhang, Yunshan Zhong, Zihao Ding, Xinyu Li, Kentaro Yoshioka,
- Abstract要約: 我々は、ビジョン言語モデル(CLIP)に適した、最初のデータ自由量子化(DFQ)フレームワークであるD4Cを提案する。
D4Cは3つのキーコンポーネントを通して意味的にリッチで構造的に多様な擬似画像を合成する。
実験によりD4Cの有効性が検証され、様々なビット幅とモデルの性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 10.318833207091162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-Free Quantization (DFQ) offers a practical solution for model compression without requiring access to real data, making it particularly attractive in privacy-sensitive scenarios. While DFQ has shown promise for unimodal models, its extension to Vision-Language Models such as Contrastive Language-Image Pre-training (CLIP) models remains underexplored. In this work, we reveal that directly applying existing DFQ techniques to CLIP results in substantial performance degradation due to two key limitations: insufficient semantic content and low intra-image diversity in synthesized samples. To tackle these challenges, we propose D4C, the first DFQ framework tailored for CLIP. D4C synthesizes semantically rich and structurally diverse pseudo images through three key components: (1) Prompt-Guided Semantic Injection aligns generated images with real-world semantics using text prompts; (2) Structural Contrastive Generation reproduces compositional structures of natural images by leveraging foreground-background contrastive synthesis; and (3) Perturbation-Aware Enhancement applies controlled perturbations to improve sample diversity and robustness. These components jointly empower D4C to synthesize images that are both semantically informative and structurally diverse, effectively bridging the performance gap of DFQ on CLIP. Extensive experiments validate the effectiveness of D4C, showing significant performance improvements on various bit-widths and models. For example, under the W4A8 setting with CLIP ResNet-50 and ViT-B/32, D4C achieves Top-1 accuracy improvement of 12.4% and 18.9% on CIFAR-10, 6.8% and 19.7% on CIFAR-100, and 1.4% and 5.7% on ImageNet-1K in zero-shot classification, respectively.
- Abstract(参考訳): データ自由量子化(DFQ)は、実際のデータへのアクセスを必要とせずに、モデル圧縮の実用的なソリューションを提供する。
DFQはユニモーダルモデルへの期待を示したが、Contrastive Language-Image Pre-Training (CLIP)モデルのようなビジョン言語モデルへの拡張はまだ未定である。
本研究では,既存のDFQ技術を直接CLIPに適用することで,合成試料のセマンティック内容の不足と画像内多様性の低さという2つの重要な制約により,性能が著しく低下することを明らかにした。
これらの課題に対処するため、我々はCLIPに適した最初のDFQフレームワークであるD4Cを提案する。
D4Cは3つの重要な構成要素を通して意味的にリッチで構造的に多様な擬似画像を合成する:(1)プロンプトガイドセマンティックインジェクションは、生成した画像をテキストプロンプトを用いて実世界の意味と整合させる;(2)構造コントラスト生成は、前景背景のコントラスト合成を利用して自然画像の構成構造を再現する;(3)摂動認識の強化は、サンプルの多様性と堅牢性を改善するために制御された摂動を適用する。
これらのコンポーネントはD4Cと共同で、意味的に情報的かつ構造的に多様性があり、CLIP上のDFQのパフォーマンスギャップを効果的に埋めるイメージを合成する。
大規模な実験によりD4Cの有効性が検証され、様々なビット幅とモデルの性能が大幅に向上した。
例えば、CLIP ResNet-50とViT-B/32で設定されたW4A8では、D4CはCIFAR-10で12.4%、CIFAR-100で6.8%、19.7%、ImageNet-1Kで1.4%、そして5.7%の精度向上を実現している。
関連論文リスト
- Role-SynthCLIP: A Role Play Driven Diverse Synthetic Data Approach [0.7446442872036001]
Role- SynthCLIPは、マルチパースペクティブなロールプレイングプロンプトを活用する新しいデータ合成フレームワークである。
セマンティックな多様性と、合成ペアの微細な画像テキストアライメントを高める。
たった100万のRole-SynthCLIPペアでトレーニングされたCLIP-B/16モデルは、MS COCO検証セットで64.1%のリコール@1を達成する。
論文 参考訳(メタデータ) (2025-11-07T08:03:53Z) - Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers [58.80845404416028]
データフリー量子化(DFQ)は、実際のデータにアクセスせずにモデル量子化を可能にし、データのセキュリティとプライバシに関する懸念に対処する。
ビジョントランスフォーマー(ViTs)の普及に伴い、ViTsのDFQは大きな注目を集めている。
本稿では,新しいセマンティックアライメントと強化データ自由化手法であるSARDFQを提案する。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - $\texttt{BATCLIP}$: Bimodal Online Test-Time Adaptation for CLIP [18.278043899825267]
Contrastive Language Image Pretraining (CLIP)のようなオープン語彙分類モデルは、強力なゼロショット学習能力を示している。
ゼロショットCLIPは、テスト時間中に一般的な画像の破損に対して堅牢性が欠如していることが示される。
一般的な画像破損に対するCLIPの堅牢性を改善するために設計された、bimodal $textbfonline$TTAメソッドである$textttBATCLIP$を提案する。
論文 参考訳(メタデータ) (2024-12-03T21:02:14Z) - Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。