論文の概要: LeakyCLIP: Extracting Training Data from CLIP
- arxiv url: http://arxiv.org/abs/2508.00756v2
- Date: Tue, 05 Aug 2025 17:13:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 13:15:14.103605
- Title: LeakyCLIP: Extracting Training Data from CLIP
- Title(参考訳): LeakyCLIP: CLIPからトレーニングデータを抽出する
- Authors: Yunhao Chen, Shujie Wang, Xin Wang, Xingjun Ma,
- Abstract要約: textbfLeakyCLIPは、CLIP埋め込みから高品質でセマンティックに正確な画像再構成を実現することを目的としている。
CLIPのインバージョンでは,1)非破壊的特徴,2)テキスト埋め込みにおける視覚的セマンティクスの制限,3)再構築精度の低下,の3つの課題が指摘されている。
- 参考スコア(独自算出の注目度): 23.702455444224995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding the memorization and privacy leakage risks in Contrastive Language--Image Pretraining (CLIP) is critical for ensuring the security of multimodal models. Recent studies have demonstrated the feasibility of extracting sensitive training examples from diffusion models, with conditional diffusion models exhibiting a stronger tendency to memorize and leak information. In this work, we investigate data memorization and extraction risks in CLIP through the lens of CLIP inversion, a process that aims to reconstruct training images from text prompts. To this end, we introduce \textbf{LeakyCLIP}, a novel attack framework designed to achieve high-quality, semantically accurate image reconstruction from CLIP embeddings. We identify three key challenges in CLIP inversion: 1) non-robust features, 2) limited visual semantics in text embeddings, and 3) low reconstruction fidelity. To address these challenges, LeakyCLIP employs 1) adversarial fine-tuning to enhance optimization smoothness, 2) linear transformation-based embedding alignment, and 3) Stable Diffusion-based refinement to improve fidelity. Empirical results demonstrate the superiority of LeakyCLIP, achieving over 358% improvement in Structural Similarity Index Measure (SSIM) for ViT-B-16 compared to baseline methods on LAION-2B subset. Furthermore, we uncover a pervasive leakage risk, showing that training data membership can even be successfully inferred from the metrics of low-fidelity reconstructions. Our work introduces a practical method for CLIP inversion while offering novel insights into the nature and scope of privacy risks in multimodal models.
- Abstract(参考訳): Contrastive Language-- Image Pretraining (CLIP)の記憶とプライバシー漏洩のリスクを理解することは、マルチモーダルモデルのセキュリティを確保するために重要である。
近年の研究では、拡散モデルからセンシティブなトレーニング例を抽出できることが実証されており、条件付き拡散モデルでは、情報を記憶・漏洩する傾向が強いことが示されている。
本稿では,CLIPインバージョン(CLIPインバージョン)のレンズを用いて,テキストプロンプトからのトレーニング画像の再構成を目的としたCLIPデータの記憶と抽出リスクについて検討する。
この目的のために,CLIP埋め込みから高品質で意味論的に正確な画像再構成を実現するために設計された,新たな攻撃フレームワークである \textbf{LeakyCLIP} を紹介する。
CLIPインバージョンにおける3つの重要な課題を特定します。
1)非破壊的特徴
2) テキスト埋め込みにおける視覚的意味論の制限
3)再建率の低いこと。
これらの課題に対処するためにLeakyCLIPが採用
1【最適化の円滑性を高めるための逆微調整】
2)線形変換に基づく埋め込みアライメント,及び
3) 忠実度を向上させるための安定拡散型精錬。
実験により, LAION-2Bサブセットのベースライン法と比較して, ViT-B-16の構造類似度指標尺度(SSIM)が358%以上改善された。
さらに, 広範囲にわたる漏洩リスクを明らかにし, 低忠実度再構築の指標から, トレーニングデータメンバーシップの推測に成功できることを示した。
本研究は,マルチモーダルモデルにおけるプライバシリスクの性質と範囲に関する新たな洞察を提供しながら,CLIPインバージョンのための実践的手法を提案する。
関連論文リスト
- Causal Disentanglement and Cross-Modal Alignment for Enhanced Few-Shot Learning [11.752632557524969]
Causal CLIP Adapter(CCA)は、CLIPから抽出された視覚的特徴を明示的に分離する新しいフレームワークである。
本手法は, 分散シフトに対する数ショット性能とロバスト性の観点から, 常に最先端の手法より優れる。
論文 参考訳(メタデータ) (2025-08-05T05:30:42Z) - NAP-Tuning: Neural Augmented Prompt Tuning for Adversarially Robust Vision-Language Models [72.58372335140241]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における対向的ロバスト性を高めるための学習可能なテキストプロンプトを導入した。
マルチモーダル適応型プロンプトチューニング(NAP-Tuning)のためのニューラルネットワークフレームワークを提案する。
我々のアプローチは、挑戦的なAutoAttackベンチマークの下で最強のベースラインよりも大幅に改善され、ViT-B16では33.5%、ViT-B32アーキテクチャでは33.0%を上回りました。
論文 参考訳(メタデータ) (2025-06-15T03:34:23Z) - Continual Learning on CLIP via Incremental Prompt Tuning with Intrinsic Textual Anchors [50.7383184560431]
連続学習(CL)は、破滅的な忘れ込みを避けながら、ディープネットワークが新たな知識を得ることを可能にする。
インクリメンタルなプロンプトチューニングに基づくCLIPのための簡潔なCLアプローチを提案する。
我々の双方向監視戦略は、忘れを減らしながら、新しい知識をより効果的に学習することを可能にする。
論文 参考訳(メタデータ) (2025-05-27T03:51:37Z) - DeeCLIP: A Robust and Generalizable Transformer-Based Framework for Detecting AI-Generated Images [14.448350657613368]
DeeCLIPはAI生成画像を検出するための新しいフレームワークである。
DeeFuserは、高レベルと低レベルの機能を組み合わせたフュージョンモジュールである。
4クラスのProGANデータのみをトレーニングし,平均精度は89.90%に達した。
論文 参考訳(メタデータ) (2025-04-28T15:06:28Z) - FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval [10.26297663751352]
CMR (Few-shot Cross-Modal Search) は、ターゲットドメインと別のモダリティで意味的に類似したインスタンスを検索する。
CLIPのような視覚言語による事前学習手法は、非常に少ないショットまたはゼロショットの学習性能を示している。
これらの課題に対処するために,新しい特徴レベル生成ネットワーク強化CLIPであるFLEX-CLIPを提案する。
論文 参考訳(メタデータ) (2024-11-26T14:12:14Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - TriplePlay: Enhancing Federated Learning with CLIP for Non-IID Data and Resource Efficiency [0.0]
TriplePlayはCLIPをアダプタとして統合し、さまざまなデータ分散に対するFLの適応性とパフォーマンスを向上させるフレームワークである。
シミュレーションの結果,TriplePlayはGPU使用コストを効果的に削減し,学習プロセスの高速化を実現し,通信オーバーヘッドの低減を図っている。
論文 参考訳(メタデータ) (2024-09-09T06:04:42Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Improving CLIP Robustness with Knowledge Distillation and Self-Training [12.17758703735395]
本稿では,教師なし学習におけるマルチモーダルコンピュータビジョンモデルCLIP(Contrastive Language- Image Pretraining)の堅牢性について検討する。
単純な線形探索層を利用することで、現実のシナリオでよく遭遇する様々な不確実性と課題に耐えられるモデルの性能を向上させることを目指している。
論文 参考訳(メタデータ) (2023-09-19T06:43:31Z) - Distilling Knowledge from Text-to-Image Generative Models Improves Visio-Linguistic Reasoning in CLIP [57.53087077735303]
本稿では,CLIPの構成的視覚言語推論を強化する軽量で効率的な蒸留法であるSDS-CLIPを紹介する。
提案手法は,Stable-Diffusionのような大規模テキスト・画像生成モデルから抽出した蒸留目標を用いた微細構造CLIPである。
挑戦的なWinogroundベンチマークでは、SDS-CLIPは様々なCLIPモデルの視覚言語性能を7%向上させ、AROデータセットでは、パフォーマンスを最大3%向上させた。
論文 参考訳(メタデータ) (2023-07-18T13:10:11Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。