論文の概要: Improving Adversarial Transferability of Vision-Language Pre-training Models through Collaborative Multimodal Interaction
- arxiv url: http://arxiv.org/abs/2403.10883v2
- Date: Mon, 8 Jul 2024 12:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 02:19:20.904643
- Title: Improving Adversarial Transferability of Vision-Language Pre-training Models through Collaborative Multimodal Interaction
- Title(参考訳): 協調型マルチモーダルインタラクションによるビジョンランゲージ事前学習モデルの逆変換性の向上
- Authors: Jiyuan Fu, Zhaoyu Chen, Kaixun Jiang, Haijing Guo, Jiafeng Wang, Shuyong Gao, Wenqiang Zhang,
- Abstract要約: 既存の研究は、ビジョンランゲージ事前訓練モデルに対する攻撃の伝達可能性を研究することはめったにない。
我々はCMI-Attack(Collaborative Multimodal Interaction Attack)と呼ばれる新しい攻撃を提案する。
CMI-AttackはALBEFからTCL、textCLIP_textViT$と$textCLIP_textCNN$の転送成功率を8.11%-16.75%向上させる。
- 参考スコア(独自算出の注目度): 22.393624206051925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the substantial advancements in Vision-Language Pre-training (VLP) models, their susceptibility to adversarial attacks poses a significant challenge. Existing work rarely studies the transferability of attacks on VLP models, resulting in a substantial performance gap from white-box attacks. We observe that prior work overlooks the interaction mechanisms between modalities, which plays a crucial role in understanding the intricacies of VLP models. In response, we propose a novel attack, called Collaborative Multimodal Interaction Attack (CMI-Attack), leveraging modality interaction through embedding guidance and interaction enhancement. Specifically, attacking text at the embedding level while preserving semantics, as well as utilizing interaction image gradients to enhance constraints on perturbations of texts and images. Significantly, in the image-text retrieval task on Flickr30K dataset, CMI-Attack raises the transfer success rates from ALBEF to TCL, $\text{CLIP}_{\text{ViT}}$ and $\text{CLIP}_{\text{CNN}}$ by 8.11%-16.75% over state-of-the-art methods. Moreover, CMI-Attack also demonstrates superior performance in cross-task generalization scenarios. Our work addresses the underexplored realm of transfer attacks on VLP models, shedding light on the importance of modality interaction for enhanced adversarial robustness.
- Abstract(参考訳): VLP(Vision-Language Pre-training)モデルの大幅な進歩にもかかわらず、敵の攻撃に対する感受性は重大な課題である。
既存の研究は、VLPモデルに対する攻撃の転送可能性を研究することはめったになく、その結果、ホワイトボックス攻撃からかなりのパフォーマンスのギャップが生じる。
我々は,VLPモデルの複雑さを理解する上で重要な役割を担うモダリティ間の相互作用機構を,先行研究が見落としていることを観察する。
そこで本研究では,コラボレーティブ・マルチモーダル・インタラクション・アタック(CMI-Attack)と呼ばれる新たな攻撃手法を提案する。
具体的には、セマンティクスを維持しながら埋め込みレベルでテキストを攻撃し、相互作用画像勾配を利用してテキストや画像の摂動の制約を強化する。
Flickr30Kデータセット上の画像テキスト検索タスクにおいて、CMI-AttackはALBEFからTCL、$\text{CLIP}_{\text{ViT}}$と$\text{CLIP}_{\text{CNN}}$の転送成功率を8.11%-16.75%向上させる。
さらに、CMI-Attackはクロスタスクの一般化シナリオでも優れたパフォーマンスを示している。
我々の研究は、VLPモデルに対するトランスファー攻撃の未解明領域に対処し、対向ロバスト性を高めるためのモダリティ相互作用の重要性に光を当てている。
関連論文リスト
- Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models [8.943713711458633]
我々は、フィードバックベースのモーダル・ミューチュアル・サーチ(FMMS)と呼ばれる新たな攻撃パラダイムを提案する。
FMMSは、マッチした画像とテキストのペアをランダムに描画しながら、特徴空間に不一致のペアを描画することを目的としている。
これは、ターゲットモデルフィードバックを利用して、マルチモーダリティの逆境を探索する最初の試みである。
論文 参考訳(メタデータ) (2024-08-27T02:31:39Z) - Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。
既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。
本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:31:37Z) - A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models [7.350203999073509]
FGA(Feature Guidance Attack)は、テキスト表現を用いてクリーンな画像の摂動を誘導する新しい手法である。
提案手法は, 各種データセット, 下流タスク, ブラックボックスとホワイトボックスの両方で, 安定かつ効果的な攻撃能力を示す。
論文 参考訳(メタデータ) (2024-07-25T06:10:33Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。