論文の概要: Multimodal Adversarial Defense for Vision-Language Models by Leveraging One-To-Many Relationships
- arxiv url: http://arxiv.org/abs/2405.18770v2
- Date: Tue, 18 Mar 2025 14:32:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:13:32.748704
- Title: Multimodal Adversarial Defense for Vision-Language Models by Leveraging One-To-Many Relationships
- Title(参考訳): ワン・ツー・マン関係の活用による視覚・言語モデルに対するマルチモーダル・アドバイサル・ディフェンス
- Authors: Futa Waseda, Antonio Tejero-de-Pablos, Isao Echizen,
- Abstract要約: この研究は、視覚言語(VL)タスクにおけるマルチモーダル攻撃に対する防衛戦略を初めて探求した。
本稿では、画像とテキストの両モードに逆方向の摂動を組み込んだマルチモーダル対位トレーニング(MAT)を提案する。
これを解決するために,我々は一対多の関係を活用して強靭性を高めるための総合的な研究を行っている。
- 参考スコア(独自算出の注目度): 9.059990548158716
- License:
- Abstract: Pre-trained vision-language (VL) models are highly vulnerable to adversarial attacks. However, existing defense methods primarily focus on image classification, overlooking two key aspects of VL tasks: multimodal attacks, where both image and text can be perturbed, and the one-to-many relationship of images and texts, where a single image can correspond to multiple textual descriptions and vice versa (1:N and N:1). This work is the first to explore defense strategies against multimodal attacks in VL tasks, whereas prior VL defense methods focus on vision robustness. We propose multimodal adversarial training (MAT), which incorporates adversarial perturbations in both image and text modalities during training, significantly outperforming existing unimodal defenses. Furthermore, we discover that MAT is limited by deterministic one-to-one (1:1) image-text pairs in VL training data. To address this, we conduct a comprehensive study on leveraging one-to-many relationships to enhance robustness, investigating diverse augmentation techniques. Our analysis shows that, for a more effective defense, augmented image-text pairs should be well-aligned, diverse, yet avoid distribution shift -- conditions overlooked by prior research. Our experiments show that MAT can effectively be applied to different VL models and tasks to improve adversarial robustness, outperforming previous efforts. Our code will be made public upon acceptance.
- Abstract(参考訳): 事前訓練された視覚言語(VL)モデルは、敵の攻撃に対して非常に脆弱である。
しかし、既存の防御手法は主に画像分類に焦点を当てており、VLタスクの2つの重要な側面を見渡す。マルチモーダル攻撃(画像とテキストの両方を摂動できる)、画像とテキストの1対多の関係(単一の画像が複数のテキスト記述に対応できる)、その逆(1:NとN:1)である。
この研究は、VLタスクにおけるマルチモーダル攻撃に対する防御戦略を初めて探求するものである。
トレーニング中の画像とテキストの両モードに逆方向の摂動を組み込んだマルチモーダル対人訓練(MAT)を提案し,既存の非モード防御を著しく上回る結果を得た。
さらに,MAT は VL トレーニングデータにおいて,決定論的 1 対 (1:1) のイメージテキストペアによって制限されていることがわかった。
そこで我々は,一対多の関係を活用して強靭性を高めるための総合的研究を行い,多種多様な強化手法について検討した。
我々の分析によると、より効果的な防御のためには、画像とテキストのペアは適切に整列され、多様性があり、分布シフトは避けるべきである。
実験の結果,MAT は様々な VL モデルやタスクに効果的に適用でき,敵の堅牢性を向上させることができることがわかった。
私たちのコードは受け入れ次第公開します。
関連論文リスト
- Non-Uniform Illumination Attack for Fooling Convolutional Neural Networks [15.79435346574302]
本研究では,NUIマスクを用いて画像が微調整される非均一照明(NUI)攻撃手法を提案する。
CIFAR10、TinyImageNet、CalTech256など、広く受け入れられたデータセットで実験が行われる。
その結果,NUI攻撃による摂動画像に直面する場合,CNNモデルの性能は著しく向上した。
論文 参考訳(メタデータ) (2024-09-05T12:14:33Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Revisiting the Adversarial Robustness of Vision Language Models: a Multimodal Perspective [42.04728834962863]
CLIPのような事前訓練された視覚言語モデル(VLM)は、様々な下流タスクにまたがる例外的な一般化を示している。
近年の研究では、テキストベースおよびマルチモーダル攻撃に対する防御がほとんど未調査のままであり、敵攻撃に対する脆弱性が明らかにされている。
本研究は,画像,テキスト,マルチモーダル入力を標的とした攻撃に対して,VLMの対角的堅牢性を改善するための最初の総合的研究である。
論文 参考訳(メタデータ) (2024-04-30T06:34:21Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Adversarial Prompt Tuning for Vision-Language Models [86.5543597406173]
AdvPT(Adversarial Prompt Tuning)は、視覚言語モデル(VLM)における画像エンコーダの対向ロバスト性を高める技術である。
我々は,AdvPTが白箱攻撃や黒箱攻撃に対する抵抗性を向上し,既存の画像処理による防御技術と組み合わせることで相乗効果を示すことを示した。
論文 参考訳(メタデータ) (2023-11-19T07:47:43Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Dual Manifold Adversarial Robustness: Defense against Lp and non-Lp
Adversarial Attacks [154.31827097264264]
敵の訓練は、境界Lpノルムを持つ攻撃脅威モデルに対する一般的な防衛戦略である。
本稿では,2次元マニフォールド逆行訓練(DMAT)を提案する。
我々のDMATは、通常の画像の性能を改善し、Lp攻撃に対する標準的な敵の訓練と同等の堅牢性を達成する。
論文 参考訳(メタデータ) (2020-09-05T06:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。