論文の概要: Pre-training CLIP against Data Poisoning with Optimal Transport-based Matching and Alignment
- arxiv url: http://arxiv.org/abs/2509.18717v1
- Date: Tue, 23 Sep 2025 07:05:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.741335
- Title: Pre-training CLIP against Data Poisoning with Optimal Transport-based Matching and Alignment
- Title(参考訳): 最適輸送方式のマッチングとアライメントによるデータポジショニングに対するプレトレーニングCLIP
- Authors: Tong Zhang, Kuofeng Gao, Jiawang Bai, Leo Yu Zhang, Xin Yin, Zonghui Wang, Shouling Ji, Wenzhi Chen,
- Abstract要約: 対照的な言語-イメージ 事前訓練モデルは、ターゲットとするデータ中毒や攻撃によって脅かされている。
従来の防御方法は、各画像の新しいキャプションをマッチングすることで、有毒な撮像対を補正する。
我々は、OTCCLIPという画像キャプチャペアを再構成する最適なトランスポートベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 65.51957843888061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that Contrastive Language-Image Pre-training (CLIP) models are threatened by targeted data poisoning and backdoor attacks due to massive training image-caption pairs crawled from the Internet. Previous defense methods correct poisoned image-caption pairs by matching a new caption for each image. However, the matching process relies solely on the global representations of images and captions, overlooking fine-grained features of visual and textual features. It may introduce incorrect image-caption pairs and harm the CLIP pre-training. To address their limitations, we propose an Optimal Transport-based framework to reconstruct image-caption pairs, named OTCCLIP. We propose a new optimal transport-based distance measure between fine-grained visual and textual feature sets and re-assign new captions based on the proposed optimal transport distance. Additionally, to further reduce the negative impact of mismatched pairs, we encourage the inter- and intra-modality fine-grained alignment by employing optimal transport-based objective functions. Our experiments demonstrate that OTCCLIP can successfully decrease the attack success rates of poisoning attacks. Also, compared to previous methods, OTCCLIP significantly improves CLIP's zero-shot and linear probing performance trained on poisoned datasets.
- Abstract(参考訳): 近年の研究では、コントラスト言語-画像事前訓練(CLIP)モデルが、インターネットから大量の画像キャプチャーペアがクロールされたことにより、ターゲットデータ中毒やバックドア攻撃によって脅かされていることが示されている。
従来の防御方法は、各画像の新しいキャプションをマッチングすることで、有毒な撮像対を補正する。
しかし、マッチングプロセスは画像やキャプションのグローバルな表現にのみ依存しており、視覚的特徴やテキスト的特徴のきめ細かい特徴を見下ろしている。
不正なイメージキャプチャペアを導入し、CLIP事前トレーニングを損なう可能性がある。
これらの制約に対処するため,OTCCLIPという画像キャプチャペアを再構成する最適なトランスポートベースのフレームワークを提案する。
本稿では,視覚的特徴集合とテキスト的特徴集合間の最適輸送に基づく距離測定と,提案した最適輸送距離に基づく新しいキャプションの再割り当てを提案する。
さらに,不一致ペアの負の影響をさらに軽減するために,最適輸送に基づく目的関数を用いることで,モダリティ内およびモダリティ内における微粒化アライメントを促進する。
実験の結果, OTCCLIPは, 毒性攻撃による攻撃成功率を低下させることができた。
また、従来の方法と比較して、OCCCLIPはCLIPのゼロショットとリニアプローブのパフォーマンスを大幅に改善する。
関連論文リスト
- Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal Transformer Distillation [4.063715077687089]
Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
論文 参考訳(メタデータ) (2025-05-25T07:08:07Z) - TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Better Safe than Sorry: Pre-training CLIP against Targeted Data Poisoning and Backdoor Attacks [46.504428925984406]
大規模な画像キャプチャデータセット上でのCLIP(Contrastive Language- Image Pre-training)は、ゼロショット分類において顕著な成功を収めた。
CLIPは、教師付き学習と比較して、ターゲットデータ中毒やバックドア攻撃に対してより脆弱である。
我々は、ターゲットデータ中毒やバックドア攻撃に対して、CLIPを安全に事前訓練するための強力な防御策SAFECLIPを提案する。
論文 参考訳(メタデータ) (2023-10-05T19:42:03Z) - Robust Contrastive Language-Image Pre-training against Data Poisoning
and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。
ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。
実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文 参考訳(メタデータ) (2023-03-13T04:49:46Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。