論文の概要: Finetune Like You Pretrain: Boosting Zero-shot Adversarial Robustness in Vision-language Models
- arxiv url: http://arxiv.org/abs/2604.11576v1
- Date: Mon, 13 Apr 2026 14:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.63066
- Title: Finetune Like You Pretrain: Boosting Zero-shot Adversarial Robustness in Vision-language Models
- Title(参考訳): ビジョン言語モデルにおけるゼロショット対逆ロバスト性を高めるファインチューン
- Authors: Songlong Xing, Weijie Wang, Zhengyu Zhao, Jindong Gu, Philip Torr, Nicu Sebe,
- Abstract要約: 本稿では,CLIPのプレトレーニングプロセスのトレーニングレシピに従うAdvFLYPを提案する。
具体的には、AdvFLYPは、Webから収集された画像とテキストのペアに基づいて生成された敵画像とCLIPを微調整し、対照的な損失によって対応するテキストとマッチングする。
また,ロジットレベルの正規化条件と特徴レベルの正規化条件は,それぞれ堅牢性とクリーンな精度に有益であることを示す。
- 参考スコア(独自算出の注目度): 89.0460992131069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their impressive zero-shot abilities, vision-language models such as CLIP have been shown to be susceptible to adversarial attacks. To enhance its adversarial robustness, recent studies finetune the pretrained vision encoder of CLIP with adversarial examples on a proxy dataset such as ImageNet by aligning adversarial images with correct class labels. However, these methods overlook the important roles of training data distributions and learning objectives, resulting in reduced zero-shot capabilities and limited transferability of robustness across domains and datasets. In this work, we propose a simple yet effective paradigm AdvFLYP, which follows the training recipe of CLIP's pretraining process when performing adversarial finetuning to the model. Specifically, AdvFLYP finetunes CLIP with adversarial images created based on image-text pairs collected from the web, and match them with their corresponding texts via a contrastive loss. To alleviate distortion of adversarial image embeddings of noisy web images, we further propose to regularise AdvFLYP by penalising deviation of adversarial image features. We show that logit- and feature-level regularisation terms benefit robustness and clean accuracy, respectively. Extensive experiments on 14 downstream datasets spanning various domains show the superiority of our paradigm over mainstream practices. Our code and model weights are released at https://github.com/Sxing2/AdvFLYP.
- Abstract(参考訳): 印象的なゼロショット能力にもかかわらず、CLIPのような視覚言語モデルは敵の攻撃を受けやすいことが示されている。
近年の研究では,CLIPの事前学習されたビジョンエンコーダを,ImageNetなどのプロキシデータセット上で,正のクラスラベルと逆画像の整列によって微調整する手法が提案されている。
しかし、これらの手法は、データ分散のトレーニングと学習目標の重要な役割を見落とし、ゼロショット能力の低下と、ドメインやデータセット間の堅牢性の限定的な転送可能性をもたらす。
本稿では,CLIPの事前学習プロセスのトレーニングレシピに従って,モデルに逆方向の微調整を行うための,シンプルで効果的なパラダイムAdvFLYPを提案する。
具体的には、AdvFLYPは、Webから収集された画像とテキストのペアに基づいて生成された敵画像とCLIPを微調整し、対照的な損失によって対応するテキストとマッチングする。
雑音の多いWeb画像の逆画像埋め込みの歪みを軽減するために,逆画像特徴の偏差を考慮し,AdvFLYPを正規化することを提案する。
また,ロジットレベルの正規化条件と特徴レベルの正規化条件は,それぞれ堅牢性とクリーンな精度に有益であることを示す。
様々な領域にまたがる14の下流データセットに関する大規模な実験は、主流のプラクティスよりもパラダイムが優れていることを示している。
コードとモデルの重み付けはhttps://github.com/Sxing2/AdvFLYP.orgで公開されています。
関連論文リスト
- CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP [54.660471826755234]
分類損失を最大化しようとする悪意のある摂動が、誤った画像に繋がることを示す。
本稿では,CLIPの事前学習したビジョンエンコーダを用いて,推論中の敵画像に対する攻撃を行い,ロバスト性を実現することを提案する。
私たちのパラダイムはシンプルで、トレーニング不要で、テスト時にCLIPを敵攻撃から防御する最初の方法を提供します。
論文 参考訳(メタデータ) (2025-03-05T15:51:59Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Robust Contrastive Language-Image Pre-training against Data Poisoning
and Backdoor Attacks [52.26631767748843]
ROCLIPは、ターゲットデータ中毒やバックドア攻撃に対して、マルチモーダル視覚言語モデルを堅牢に学習するための最初の効果的な方法である。
ROCLIPは、比較的大きく多様なランダムキャプションのプールを考慮することにより、有毒な撮像対の関連を効果的に破壊する。
実験の結果,ROCLIPは訓練前のCLIPモデルにおいて,最先端のデータ中毒やバックドア攻撃を未然に防ぐことができることがわかった。
論文 参考訳(メタデータ) (2023-03-13T04:49:46Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文 参考訳(メタデータ) (2022-06-22T11:55:53Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。