論文の概要: Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models
- arxiv url: http://arxiv.org/abs/2307.14061v1
- Date: Wed, 26 Jul 2023 09:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 12:59:36.020752
- Title: Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models
- Title(参考訳): セットレベル誘導攻撃:ビジョンランゲージ事前学習モデルの逆転性を高める
- Authors: Dong Lu, Zhiqiang Wang, Teng Wang, Weili Guan, Hongchang Gao, Feng
Zheng
- Abstract要約: 本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
- 参考スコア(独自算出の注目度): 52.530286579915284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) models have shown vulnerability to
adversarial examples in multimodal tasks. Furthermore, malicious adversaries
can be deliberately transferred to attack other black-box models. However,
existing work has mainly focused on investigating white-box attacks. In this
paper, we present the first study to investigate the adversarial
transferability of recent VLP models. We observe that existing methods exhibit
much lower transferability, compared to the strong attack performance in
white-box settings. The transferability degradation is partly caused by the
under-utilization of cross-modal interactions. Particularly, unlike unimodal
learning, VLP models rely heavily on cross-modal interactions and the
multimodal alignments are many-to-many, e.g., an image can be described in
various natural languages. To this end, we propose a highly transferable
Set-level Guidance Attack (SGA) that thoroughly leverages modality interactions
and incorporates alignment-preserving augmentation with cross-modal guidance.
Experimental results demonstrate that SGA could generate adversarial examples
that can strongly transfer across different VLP models on multiple downstream
vision-language tasks. On image-text retrieval, SGA significantly enhances the
attack success rate for transfer attacks from ALBEF to TCL by a large margin
(at least 9.78% and up to 30.21%), compared to the state-of-the-art.
- Abstract(参考訳): 視覚言語事前学習(VLP)モデルは、マルチモーダルタスクにおける敵の例に対する脆弱性を示す。
さらに、悪意のある敵は意図的に他のブラックボックスモデルを攻撃することができる。
しかし、既存の研究は主にホワイトボックス攻撃の調査に焦点を当てている。
本稿では,近年のVLPモデルの逆転送性について検討する。
既存の手法は, ホワイトボックス設定における攻撃性能よりもはるかに低い転送性を示す。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
特に、単項学習とは異なり、VLPモデルはクロスモーダル相互作用に強く依存しており、マルチモーダルアライメントは多対多である(例えば、画像は様々な自然言語で記述できる)。
そこで本研究では,モダリティインタラクションを徹底的に活用し,アライメント保存強化とクロスモーダルガイダンスを組み込んだ,高度に転送可能なセットレベル誘導攻撃(sga)を提案する。
実験により、SGAは複数の下流視覚言語タスクにおいて、異なるVLPモデル間で強く伝達可能な逆例を生成できることを示した。
画像テキスト検索において、SGAはALBEFからTCLへの転送攻撃の攻撃成功率(少なくとも9.78%、最大30.21%)を最先端と比較して著しく向上させる。
関連論文リスト
- Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z) - Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。
既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。
本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:31:37Z) - A Unified Understanding of Adversarial Vulnerability Regarding Unimodal Models and Vision-Language Pre-training Models [7.350203999073509]
FGA(Feature Guidance Attack)は、テキスト表現を用いてクリーンな画像の摂動を誘導する新しい手法である。
提案手法は, 各種データセット, 下流タスク, ブラックボックスとホワイトボックスの両方で, 安定かつ効果的な攻撃能力を示す。
論文 参考訳(メタデータ) (2024-07-25T06:10:33Z) - One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models [47.14654793461]
クロスモーダル条件 (C-PGC) を備えたコントラスト学習型摂動発電機を提案する。
C-PGCは、効果的なガイダンスとして、一方的な情報と横断的な情報の両方を取り入れている。
実験の結果、C-PGCは敵のサンプルを元の領域から遠ざけることに成功した。
論文 参考訳(メタデータ) (2024-06-08T15:01:54Z) - Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory [8.591762884862504]
視覚言語事前学習モデルは多モーダル逆例(AE)の影響を受けやすい
我々は,AEsの多様性を拡大するために,対向軌道の交差領域に沿った多様化を利用することを提案する。
潜在的なオーバーフィッティングを緩和するため、最適化経路に沿った最後の交差点領域から逸脱する逆テキストを指示する。
論文 参考訳(メタデータ) (2024-03-19T05:10:10Z) - Improving Adversarial Transferability of Vision-Language Pre-training Models through Collaborative Multimodal Interaction [22.393624206051925]
既存の研究は、ビジョンランゲージ事前訓練モデルに対する攻撃の伝達可能性を研究することはめったにない。
我々はCMI-Attack(Collaborative Multimodal Interaction Attack)と呼ばれる新しい攻撃を提案する。
CMI-AttackはALBEFからTCL、textCLIP_textViT$と$textCLIP_textCNN$の転送成功率を8.11%-16.75%向上させる。
論文 参考訳(メタデータ) (2024-03-16T10:32:24Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。