論文の概要: Improving Adversarial Transferability of Visual-Language Pre-training Models through Collaborative Multimodal Interaction
- arxiv url: http://arxiv.org/abs/2403.10883v1
- Date: Sat, 16 Mar 2024 10:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:15:47.029464
- Title: Improving Adversarial Transferability of Visual-Language Pre-training Models through Collaborative Multimodal Interaction
- Title(参考訳): 協調型マルチモーダルインタラクションによる視覚言語事前学習モデルの逆変換性の向上
- Authors: Jiyuan Fu, Zhaoyu Chen, Kaixun Jiang, Haijing Guo, Jiafeng Wang, Shuyong Gao, Wenqiang Zhang,
- Abstract要約: 既存の研究は、ビジョンランゲージ事前訓練モデルに対する攻撃の伝達可能性を研究することはめったにない。
我々はCMI-Attack(Collaborative Multimodal Interaction Attack)と呼ばれる新しい攻撃を提案する。
CMI-AttackはALBEFからTCL、textCLIP_textViT$と$textCLIP_textCNN$の転送成功率を8.11%-16.75%向上させる。
- 参考スコア(独自算出の注目度): 22.393624206051925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the substantial advancements in Vision-Language Pre-training (VLP) models, their susceptibility to adversarial attacks poses a significant challenge. Existing work rarely studies the transferability of attacks on VLP models, resulting in a substantial performance gap from white-box attacks. We observe that prior work overlooks the interaction mechanisms between modalities, which plays a crucial role in understanding the intricacies of VLP models. In response, we propose a novel attack, called Collaborative Multimodal Interaction Attack (CMI-Attack), leveraging modality interaction through embedding guidance and interaction enhancement. Specifically, attacking text at the embedding level while preserving semantics, as well as utilizing interaction image gradients to enhance constraints on perturbations of texts and images. Significantly, in the image-text retrieval task on Flickr30K dataset, CMI-Attack raises the transfer success rates from ALBEF to TCL, $\text{CLIP}_{\text{ViT}}$ and $\text{CLIP}_{\text{CNN}}$ by 8.11%-16.75% over state-of-the-art methods. Moreover, CMI-Attack also demonstrates superior performance in cross-task generalization scenarios. Our work addresses the underexplored realm of transfer attacks on VLP models, shedding light on the importance of modality interaction for enhanced adversarial robustness.
- Abstract(参考訳): VLP(Vision-Language Pre-training)モデルの大幅な進歩にもかかわらず、敵の攻撃に対する感受性は重大な課題である。
既存の研究は、VLPモデルに対する攻撃の転送可能性を研究することはめったになく、その結果、ホワイトボックス攻撃からかなりのパフォーマンスのギャップが生じる。
我々は,VLPモデルの複雑さを理解する上で重要な役割を担うモダリティ間の相互作用機構を,先行研究が見落としていることを観察する。
そこで本研究では,コラボレーティブ・マルチモーダル・インタラクション・アタック(CMI-Attack)と呼ばれる新たな攻撃手法を提案する。
具体的には、セマンティクスを維持しながら埋め込みレベルでテキストを攻撃し、相互作用画像勾配を利用してテキストや画像の摂動の制約を強化する。
Flickr30Kデータセット上の画像テキスト検索タスクにおいて、CMI-AttackはALBEFからTCL、$\text{CLIP}_{\text{ViT}}$と$\text{CLIP}_{\text{CNN}}$の転送成功率を8.11%-16.75%向上させる。
さらに、CMI-Attackはクロスタスクの一般化シナリオでも優れたパフォーマンスを示している。
我々の研究は、VLPモデルに対するトランスファー攻撃の未解明領域に対処し、対向ロバスト性を高めるためのモダリティ相互作用の重要性に光を当てている。
関連論文リスト
- Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory [8.591762884862504]
視覚言語事前学習モデルは多モーダル逆例(AE)の影響を受けやすい
本研究では,AEsの多様性を拡大するために,対向軌道の交点領域に沿って多様化する手法を提案する。
潜在的なオーバーフィッティングを緩和するため、最適化経路に沿った最後の交差点領域から逸脱する逆テキストを指示する。
論文 参考訳(メタデータ) (2024-03-19T05:10:10Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Towards Adversarial Attack on Vision-Language Pre-training Models [15.882687207499373]
本稿では,V+LモデルとV+Lタスクに対する敵対的攻撃について検討した。
異なる対象や攻撃対象の影響を調べた結果,強力なマルチモーダル攻撃を設計するための指針として,いくつかの重要な観測結果が得られた。
論文 参考訳(メタデータ) (2022-06-19T12:55:45Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。