Fugu-MT 論文翻訳(概要): Improving Adversarial Transferability of Visual-Language Pre-training Models through Collaborative Multimodal Interaction

論文の概要: Improving Adversarial Transferability of Visual-Language Pre-training Models through Collaborative Multimodal Interaction

arxiv url: http://arxiv.org/abs/2403.10883v1
Date: Sat, 16 Mar 2024 10:32:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 21:15:47.029464
Title: Improving Adversarial Transferability of Visual-Language Pre-training Models through Collaborative Multimodal Interaction
Title（参考訳）: 協調型マルチモーダルインタラクションによる視覚言語事前学習モデルの逆変換性の向上
Authors: Jiyuan Fu, Zhaoyu Chen, Kaixun Jiang, Haijing Guo, Jiafeng Wang, Shuyong Gao, Wenqiang Zhang,
Abstract要約: 既存の研究は、ビジョンランゲージ事前訓練モデルに対する攻撃の伝達可能性を研究することはめったにない。我々はCMI-Attack(Collaborative Multimodal Interaction Attack)と呼ばれる新しい攻撃を提案する。 CMI-AttackはALBEFからTCL、textCLIP_textViT$と$textCLIP_textCNN$の転送成功率を8.11%-16.75%向上させる。
参考スコア（独自算出の注目度）: 22.393624206051925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the substantial advancements in Vision-Language Pre-training (VLP) models, their susceptibility to adversarial attacks poses a significant challenge. Existing work rarely studies the transferability of attacks on VLP models, resulting in a substantial performance gap from white-box attacks. We observe that prior work overlooks the interaction mechanisms between modalities, which plays a crucial role in understanding the intricacies of VLP models. In response, we propose a novel attack, called Collaborative Multimodal Interaction Attack (CMI-Attack), leveraging modality interaction through embedding guidance and interaction enhancement. Specifically, attacking text at the embedding level while preserving semantics, as well as utilizing interaction image gradients to enhance constraints on perturbations of texts and images. Significantly, in the image-text retrieval task on Flickr30K dataset, CMI-Attack raises the transfer success rates from ALBEF to TCL, $\text{CLIP}_{\text{ViT}}$ and $\text{CLIP}_{\text{CNN}}$ by 8.11%-16.75% over state-of-the-art methods. Moreover, CMI-Attack also demonstrates superior performance in cross-task generalization scenarios. Our work addresses the underexplored realm of transfer attacks on VLP models, shedding light on the importance of modality interaction for enhanced adversarial robustness.
Abstract（参考訳）: VLP(Vision-Language Pre-training)モデルの大幅な進歩にもかかわらず、敵の攻撃に対する感受性は重大な課題である。既存の研究は、VLPモデルに対する攻撃の転送可能性を研究することはめったになく、その結果、ホワイトボックス攻撃からかなりのパフォーマンスのギャップが生じる。我々は,VLPモデルの複雑さを理解する上で重要な役割を担うモダリティ間の相互作用機構を,先行研究が見落としていることを観察する。そこで本研究では,コラボレーティブ・マルチモーダル・インタラクション・アタック(CMI-Attack)と呼ばれる新たな攻撃手法を提案する。具体的には、セマンティクスを維持しながら埋め込みレベルでテキストを攻撃し、相互作用画像勾配を利用してテキストや画像の摂動の制約を強化する。 Flickr30Kデータセット上の画像テキスト検索タスクにおいて、CMI-AttackはALBEFからTCL、$\text{CLIP}_{\text{ViT}}$と$\text{CLIP}_{\text{CNN}}$の転送成功率を8.11%-16.75%向上させる。さらに、CMI-Attackはクロスタスクの一般化シナリオでも優れたパフォーマンスを示している。我々の研究は、VLPモデルに対するトランスファー攻撃の未解明領域に対処し、対向ロバスト性を高めるためのモダリティ相互作用の重要性に光を当てている。

関連論文リスト

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction [67.45032003041399]
本研究では,先進的かつ意味論的に誘導された摂動を通じて対向的伝達性を高めるセマンティック・ダイナミック・コントラシブ・アタック(SADCA)を提案する。 SADCAは、対立、正、負のサンプルを含む対照的な学習メカニズムを確立し、得られた摂動の意味的不整合を強化する。複数のデータセットとモデルの実験により、SADCAは対向移動性を大幅に改善し、最先端の手法を一貫して超えることを示した。
論文参考訳（メタデータ） (2026-03-05T05:46:16Z)
Bridging the Task Gap: Multi-Task Adversarial Transferability in CLIP and Its Derivatives [61.58574200236532]
きめ細かいタスクから生成される敵の例は、粗いタスクよりも強い伝達ポテンシャルを示すことが多い。本稿では,タスク認識機能集約損失を導入し,タスク間の一般化機能を強化した摂動を生成する,新しいフレームワークであるMulti-Task Adversarial CLIP (MT-AdvCLIP)を提案する。
論文参考訳（メタデータ） (2025-09-28T14:46:52Z)
Feedback-based Modal Mutual Search for Attacking Vision-Language Pre-training Models [8.943713711458633]
我々は、フィードバックベースのモーダル・ミューチュアル・サーチ(FMMS)と呼ばれる新たな攻撃パラダイムを提案する。 FMMSは、マッチした画像とテキストのペアをランダムに描画しながら、特徴空間に不一致のペアを描画することを目的としている。これは、ターゲットモデルフィードバックを利用して、マルチモーダリティの逆境を探索する最初の試みである。
論文参考訳（メタデータ） (2024-08-27T02:31:39Z)
Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文参考訳（メタデータ） (2024-08-24T04:31:37Z)
A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models [7.350203999073509]
FGA(Feature Guidance Attack)は、テキスト表現を用いてクリーンな画像の摂動を誘導する新しい手法である。提案手法は, 各種データセット, 下流タスク, ブラックボックスとホワイトボックスの両方で, 安定かつ効果的な攻撃能力を示す。
論文参考訳（メタデータ） (2024-07-25T06:10:33Z)
SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文参考訳（メタデータ） (2023-12-08T09:08:50Z)
OT-Attack: Enhancing Adversarial Transferability of Vision-Language Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文参考訳（メタデータ） (2023-12-07T16:16:50Z)
Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文参考訳（メタデータ） (2023-07-26T09:19:21Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
VIRT: Improving Representation-based Models for Text Matching through Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。 VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文参考訳（メタデータ） (2021-12-08T09:49:28Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。