論文の概要: Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models
- arxiv url: http://arxiv.org/abs/2409.06726v1
- Date: Tue, 27 Aug 2024 02:31:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-15 05:11:34.144338
- Title: Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models
- Title(参考訳): 視覚領域事前学習モデルに対するフィードバックに基づくモーダル相互探索
- Authors: Renhua Ding, Xinze Zhang, Xiao Yang, Kun He,
- Abstract要約: 我々は、フィードバックベースのモーダル・ミューチュアル・サーチ(FMMS)と呼ばれる新たな攻撃パラダイムを提案する。
FMMSは、マッチした画像とテキストのペアをランダムに描画しながら、特徴空間に不一致のペアを描画することを目的としている。
これは、ターゲットモデルフィードバックを利用して、マルチモーダリティの逆境を探索する最初の試みである。
- 参考スコア(独自算出の注目度): 8.943713711458633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although vision-language pre-training (VLP) models have achieved remarkable progress on cross-modal tasks, they remain vulnerable to adversarial attacks. Using data augmentation and cross-modal interactions to generate transferable adversarial examples on surrogate models, transfer-based black-box attacks have become the mainstream methods in attacking VLP models, as they are more practical in real-world scenarios. However, their transferability may be limited due to the differences on feature representation across different models. To this end, we propose a new attack paradigm called Feedback-based Modal Mutual Search (FMMS). FMMS introduces a novel modal mutual loss (MML), aiming to push away the matched image-text pairs while randomly drawing mismatched pairs closer in feature space, guiding the update directions of the adversarial examples. Additionally, FMMS leverages the target model feedback to iteratively refine adversarial examples, driving them into the adversarial region. To our knowledge, this is the first work to exploit target model feedback to explore multi-modality adversarial boundaries. Extensive empirical evaluations on Flickr30K and MSCOCO datasets for image-text matching tasks show that FMMS significantly outperforms the state-of-the-art baselines.
- Abstract(参考訳): 視覚言語事前訓練(VLP)モデルは、クロスモーダルタスクにおいて顕著な進歩を遂げているが、敵の攻撃に弱いままである。
データ拡張とクロスモーダル相互作用を用いて、サロゲートモデル上で転送可能な敵の例を生成することで、トランスファーベースのブラックボックス攻撃は、現実のシナリオにおいてより実用的なため、VLPモデルを攻撃する主要な方法となっている。
しかし、それらの転送性は、異なるモデル間の特徴表現の違いによって制限される可能性がある。
そこで本研究では,FMMS (Feedback-based Modal Mutual Search) と呼ばれる新たな攻撃パラダイムを提案する。
FMMSはMML(Modal mutual loss)を導入し、マッチングされた画像とテキストのペアをランダムに描画しながら、不一致のペアを特徴空間に近づけ、敵の例の更新方向を導く。
さらに、FMMSはターゲットモデルフィードバックを利用して、敵の例を反復的に洗練し、敵の領域に誘導する。
我々の知る限り、これはターゲットモデルフィードバックを利用してマルチモーダリティの逆境を探索する最初の試みである。
画像テキストマッチングタスクのためのFlickr30KとMSCOCOデータセットに対する大規模な実験的な評価は、FMMSが最先端のベースラインを大幅に上回っていることを示している。
関連論文リスト
- Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。
既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。
本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:31:37Z) - A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models [7.350203999073509]
FGA(Feature Guidance Attack)は、テキスト表現を用いてクリーンな画像の摂動を誘導する新しい手法である。
提案手法は, 各種データセット, 下流タスク, ブラックボックスとホワイトボックスの両方で, 安定かつ効果的な攻撃能力を示す。
論文 参考訳(メタデータ) (2024-07-25T06:10:33Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models [17.958154849014576]
大規模視覚言語モデル(VLM)のロバスト性を評価するために、敵対的攻撃を用いることができる。
従来のトランスファーベースの敵攻撃は、高いイテレーション数と複雑なメソッド構造により、高いコストを発生させる。
本稿では, 拡散モデルを用いて, 自然, 制約のない, 対象とする対向的な例を生成するAdvDiffVLMを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:19:52Z) - Improving Adversarial Transferability of Vision-Language Pre-training Models through Collaborative Multimodal Interaction [22.393624206051925]
既存の研究は、ビジョンランゲージ事前訓練モデルに対する攻撃の伝達可能性を研究することはめったにない。
我々はCMI-Attack(Collaborative Multimodal Interaction Attack)と呼ばれる新しい攻撃を提案する。
CMI-AttackはALBEFからTCL、textCLIP_textViT$と$textCLIP_textCNN$の転送成功率を8.11%-16.75%向上させる。
論文 参考訳(メタデータ) (2024-03-16T10:32:24Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Training Meta-Surrogate Model for Transferable Adversarial Attack [98.13178217557193]
クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。
この設定では、多くの手法が代理モデルを直接攻撃し、得られた敵の例をターゲットモデルを騙すために転送する。
メタサロゲートモデル(Meta-Surrogate Model:MSM)は,このモデルに対する攻撃が,他のモデルに容易に転送できることを示す。
論文 参考訳(メタデータ) (2021-09-05T03:27:46Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。