論文の概要: Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective
- arxiv url: http://arxiv.org/abs/2404.19287v2
- Date: Wed, 17 Jul 2024 05:40:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 21:57:43.680179
- Title: Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective
- Title(参考訳): 視覚言語モデルの敵対的ロバスト性を再考する:マルチモーダル視点
- Authors: Wanqi Zhou, Shuanghao Bai, Qibin Zhao, Badong Chen,
- Abstract要約: マルチモーダル攻撃下での対角的ロバスト性に対する視覚言語モデルの適用について検討する。
本研究は,マルチモーダル・コントラッシブ・コントラスト・トレーニング・ロスを提案し,クリーン・アトラッシブ・テキストの埋め込みと,その逆・クリーンな視覚的特徴との整合性を示す。
2つのタスクにまたがる15のデータセットの実験により、我々の手法はCLIPの対角的堅牢性を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 32.42201363966808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained vision-language models (VLMs) like CLIP have shown impressive generalization performance across various downstream tasks, yet they remain vulnerable to adversarial attacks. While prior research has primarily concentrated on improving the adversarial robustness of image encoders to guard against attacks on images, the exploration of text-based and multimodal attacks has largely been overlooked. In this work, we initiate the first known and comprehensive effort to study adapting vision-language models for adversarial robustness under the multimodal attack. Firstly, we introduce a multimodal attack strategy and investigate the impact of different attacks. We then propose a multimodal contrastive adversarial training loss, aligning the clean and adversarial text embeddings with the adversarial and clean visual features, to enhance the adversarial robustness of both image and text encoders of CLIP. Extensive experiments on 15 datasets across two tasks demonstrate that our method significantly improves the adversarial robustness of CLIP. Interestingly, we find that the model fine-tuned against multimodal adversarial attacks exhibits greater robustness than its counterpart fine-tuned solely against image-based attacks, even in the context of image attacks, which may open up new possibilities for enhancing the security of VLMs.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデル(VLM)は、様々な下流タスクにまたがる優れた一般化性能を示しているが、敵の攻撃には弱いままである。
従来の研究は主に、画像に対する攻撃を防ぐために画像エンコーダの対向的堅牢性を改善することに集中してきたが、テキストベースおよびマルチモーダル攻撃の探索は概ね見過ごされてきた。
本研究は,マルチモーダル攻撃下での対角的ロバスト性に対する適応型視覚言語モデルの研究を初めて開始する。
まず,マルチモーダル攻撃戦略を導入し,異なる攻撃の影響について検討する。
次に,CLIPの画像エンコーダとテキストエンコーダの双方の対向的堅牢性を高めるために,クリーン・対向的テキスト埋め込みと,逆向的かつクリーンな視覚的特徴とを整合させるマルチモーダル対向的トレーニング損失を提案する。
2つのタスクにまたがる15のデータセットに対する大規模な実験により、我々の手法はCLIPの対角的堅牢性を大幅に改善することを示した。
興味深いことに、マルチモーダル攻撃に対して微調整されたモデルの方が、画像ベースの攻撃に対してのみ微調整されたモデルよりも堅牢性が高いことが判明した。
関連論文リスト
- MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z) - Iterative Adversarial Attack on Image-guided Story Ending Generation [37.42908817585858]
マルチモーダル学習は、画像やテキストなどの様々なソースからの情報を統合できるモデルを開発することを含む。
最近のIgSEGモデルのバックボーンであるディープニューラルネットワークは、敵のサンプルに対して脆弱である。
画像とテキストのモダリティ攻撃を融合させる反復的逆攻撃法(Iterative- attack)を提案する。
論文 参考訳(メタデータ) (2023-05-16T06:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。