論文の概要: One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models
- arxiv url: http://arxiv.org/abs/2406.05491v2
- Date: Tue, 08 Oct 2024 15:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:48.111750
- Title: One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models
- Title(参考訳): 1つの摂動は十分である:ビジョンランゲージ事前学習モデルに対する普遍的対向摂動の生成について
- Authors: Hao Fang, Jiawei Kong, Wenbo Yu, Bin Chen, Jiawei Li, Shutao Xia, Ke Xu,
- Abstract要約: クロスモーダル条件 (C-PGC) を備えたコントラスト学習型摂動発電機を提案する。
C-PGCは、効果的なガイダンスとして、一方的な情報と横断的な情報の両方を取り入れている。
実験の結果、C-PGCは敵のサンプルを元の領域から遠ざけることに成功した。
- 参考スコア(独自算出の注目度): 47.14654793461
- License:
- Abstract: Vision-Language Pre-training (VLP) models have exhibited unprecedented capability in many applications by taking full advantage of the multimodal alignment. However, previous studies have shown they are vulnerable to maliciously crafted adversarial samples. Despite recent success, these methods are generally instance-specific and require generating perturbations for each input sample. In this paper, we reveal that VLP models are also vulnerable to the instance-agnostic universal adversarial perturbation (UAP). Specifically, we design a novel Contrastive-training Perturbation Generator with Cross-modal conditions (C-PGC) to achieve the attack. In light that the pivotal multimodal alignment is achieved through the advanced contrastive learning technique, we devise to turn this powerful weapon against themselves, i.e., employ a malicious version of contrastive learning to train the C-PGC based on our carefully crafted positive and negative image-text pairs for essentially destroying the alignment relationship learned by VLP models. Besides, C-PGC fully utilizes the characteristics of Vision-and-Language (V+L) scenarios by incorporating both unimodal and cross-modal information as effective guidance. Extensive experiments show that C-PGC successfully forces adversarial samples to move away from their original area in the VLP model's feature space, thus essentially enhancing attacks across various victim models and V+L tasks. The GitHub repository is available at https://github.com/ffhibnese/CPGC_VLP_Universal_Attacks.
- Abstract(参考訳): VLP(Vision-Language Pre-Training)モデルは、マルチモーダルアライメントを最大限に活用することで、多くのアプリケーションにおいて前例のない能力を示した。
しかし、以前の研究では、悪意ある敵のサンプルに弱いことが示されている。
最近の成功にもかかわらず、これらの手法は一般的にインスタンス固有であり、各入力サンプルに対して摂動を生成する必要がある。
本稿では,VLPモデルがインスタンスに依存しない普遍的対向摂動(UAP)に対して脆弱であることを明らかにする。
具体的には,クロスモーダル条件 (C-PGC) を用いたコントラスト学習型摂動発電機の設計を行った。
先進的なコントラスト学習技術によって中心的なマルチモーダルアライメントが達成されることを鑑みて、我々は、この強力な武器を自身に向け、すなわち、VLPモデルによって学習されたアライメント関係を本質的に破壊するために、慎重に作られた正負のイメージテキストペアに基づいて、C-PGCをトレーニングするために悪質なコントラスト学習を採用することを考案した。
さらに、C-PGCは、非モーダル情報とクロスモーダル情報の両方を効果的なガイダンスとして組み込むことで、ビジョン・アンド・ランゲージ(V+L)シナリオの特徴を完全に活用する。
大規模な実験により、C-PGCは敵のサンプルをVLPモデルの特徴空間の本来の領域から遠ざけることに成功し、それによって様々な犠牲者モデルやV+Lタスクに対する攻撃が強化された。
GitHubリポジトリはhttps://github.com/ffhibnese/CPGC_VLP_Universal_Attacksで公開されている。
関連論文リスト
- Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Universal Adversarial Perturbations for Vision-Language Pre-trained Models [30.04163729936878]
我々は,UAP(Universal Adversarial Perturbations)を生成する新しいブラックボックス手法を提案する。
ETUは、UAPの特性と本質的な相互モーダル相互作用を考慮し、効果的なUAPを生成する。
さらに,UAPの有効性と転送性を高めるために,ScMixという新しいデータ拡張手法を設計する。
論文 参考訳(メタデータ) (2024-05-09T03:27:28Z) - Partially Recentralization Softmax Loss for Vision-Language Models Robustness [8.78222772167501]
事前学習したマルチモーダルモデルの損失関数を変更することで得られる対向的ロバスト性について検討する。
実験の結果、訓練済みモデルの微調整後、一般的な攻撃に対して、逆方向の頑健性を大幅に改善できることが判明した。
論文 参考訳(メタデータ) (2024-02-06T01:44:38Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - Visual Prompting for Adversarial Robustness [63.89295305670113]
我々は、視覚的プロンプト計算を用いて、テスト時に固定された事前訓練されたモデルの対向ロバスト性を改善する。
本稿では,クラスワイズビジュアルプロンプトを生成するために,クラスワイズビジュアルプロンプト(C-AVP)と呼ばれる新しいVP手法を提案する。
C-AVPは従来のVP法よりも2.1倍の精度向上、2倍の堅牢な精度向上を実現している。
論文 参考訳(メタデータ) (2022-10-12T15:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。