論文の概要: One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models
- arxiv url: http://arxiv.org/abs/2406.05491v1
- Date: Sat, 8 Jun 2024 15:01:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 19:25:53.306304
- Title: One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models
- Title(参考訳): 1つの摂動は十分である:ビジョンランゲージ事前学習モデルに対する普遍的対向摂動の生成について
- Authors: Hao Fang, Jiawei Kong, Wenbo Yu, Bin Chen, Jiawei Li, Shutao Xia, Ke Xu,
- Abstract要約: 大規模画像テキストペアでトレーニングされたビジョンランゲージ事前トレーニングモデルは、悪意のある敵によって作成される敵のサンプルに対して脆弱である。
クロスモーダル条件(C-PGC)を用いたコントラスト学習型摂動発電機を提案する。
- 参考スコア(独自算出の注目度): 47.14654793461
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Vision-Language Pre-training (VLP) models trained on large-scale image-text pairs have demonstrated unprecedented capability in many practical applications. However, previous studies have revealed that VLP models are vulnerable to adversarial samples crafted by a malicious adversary. While existing attacks have achieved great success in improving attack effect and transferability, they all focus on instance-specific attacks that generate perturbations for each input sample. In this paper, we show that VLP models can be vulnerable to a new class of universal adversarial perturbation (UAP) for all input samples. Although initially transplanting existing UAP algorithms to perform attacks showed effectiveness in attacking discriminative models, the results were unsatisfactory when applied to VLP models. To this end, we revisit the multimodal alignments in VLP model training and propose the Contrastive-training Perturbation Generator with Cross-modal conditions (C-PGC). Specifically, we first design a generator that incorporates cross-modal information as conditioning input to guide the training. To further exploit cross-modal interactions, we propose to formulate the training objective as a multimodal contrastive learning paradigm based on our constructed positive and negative image-text pairs. By training the conditional generator with the designed loss, we successfully force the adversarial samples to move away from its original area in the VLP model's feature space, and thus essentially enhance the attacks. Extensive experiments show that our method achieves remarkable attack performance across various VLP models and Vision-and-Language (V+L) tasks. Moreover, C-PGC exhibits outstanding black-box transferability and achieves impressive results in fooling prevalent large VLP models including LLaVA and Qwen-VL.
- Abstract(参考訳): 大規模画像テキストペアで訓練された視覚言語前訓練(VLP)モデルは、多くの実用的な応用において前例のない能力を示している。
しかし、以前の研究では、VLPモデルは悪意のある敵によって作られた敵のサンプルに対して脆弱であることが示されている。
既存の攻撃は攻撃効果と転送可能性を改善することに成功しているが、それらはすべて、各入力サンプルに対する摂動を生成するインスタンス固有の攻撃に焦点を当てている。
本稿では,VLPモデルが全ての入力サンプルに対して,新しい種類の普遍的対向摂動(UAP)に対して脆弱であることを示す。
既存のUAPアルゴリズムを移植して攻撃を行うと、識別モデルを攻撃する効果が見られたが、VLPモデルに適用した場合は不満足であった。
そこで我々は,VLPモデルトレーニングにおけるマルチモーダルアライメントを再検討し,クロスモーダル条件(C-PGC)を用いたコントラストトレーニング摂動発電機を提案する。
具体的には、まずクロスモーダル情報を条件入力として組み込んだジェネレータを設計し、トレーニングを指導する。
そこで本研究では,提案手法を,構築した肯定的および否定的な画像テキストペアに基づくマルチモーダルコントラスト学習パラダイムとして定式化することを提案する。
条件付きジェネレータを設計した損失で訓練することにより、VLPモデルの特徴空間における元の領域から離れるように、敵のサンプルを強制的に移動させ、本質的に攻撃を増強する。
広汎な実験により,本手法は様々なVLPモデルと視覚・言語(V+L)タスクにまたがる顕著な攻撃性能を実現することが示された。
さらに、C-PGCは優れたブラックボックス転送性を示し、LLaVAやQwen-VLといった大容量VLPモデルを騙すという印象的な結果が得られる。
関連論文リスト
- Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation [15.883062174902093]
VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。
VLMに特化して設計された新しいUAPについて紹介する:Douubly-Universal Adversarial Perturbation (Douubly-UAP)
論文 参考訳(メタデータ) (2024-12-11T05:23:34Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Universal Adversarial Perturbations for Vision-Language Pre-trained Models [30.04163729936878]
我々は,UAP(Universal Adversarial Perturbations)を生成する新しいブラックボックス手法を提案する。
ETUは、UAPの特性と本質的な相互モーダル相互作用を考慮し、効果的なUAPを生成する。
さらに,UAPの有効性と転送性を高めるために,ScMixという新しいデータ拡張手法を設計する。
論文 参考訳(メタデータ) (2024-05-09T03:27:28Z) - Partially Recentralization Softmax Loss for Vision-Language Models Robustness [8.78222772167501]
事前学習したマルチモーダルモデルの損失関数を変更することで得られる対向的ロバスト性について検討する。
実験の結果、訓練済みモデルの微調整後、一般的な攻撃に対して、逆方向の頑健性を大幅に改善できることが判明した。
論文 参考訳(メタデータ) (2024-02-06T01:44:38Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - Visual Prompting for Adversarial Robustness [63.89295305670113]
我々は、視覚的プロンプト計算を用いて、テスト時に固定された事前訓練されたモデルの対向ロバスト性を改善する。
本稿では,クラスワイズビジュアルプロンプトを生成するために,クラスワイズビジュアルプロンプト(C-AVP)と呼ばれる新しいVP手法を提案する。
C-AVPは従来のVP法よりも2.1倍の精度向上、2倍の堅牢な精度向上を実現している。
論文 参考訳(メタデータ) (2022-10-12T15:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。