論文の概要: Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models
- arxiv url: http://arxiv.org/abs/2307.14061v1
- Date: Wed, 26 Jul 2023 09:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 12:59:36.020752
- Title: Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models
- Title(参考訳): セットレベル誘導攻撃:ビジョンランゲージ事前学習モデルの逆転性を高める
- Authors: Dong Lu, Zhiqiang Wang, Teng Wang, Weili Guan, Hongchang Gao, Feng
Zheng
- Abstract要約: 本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
- 参考スコア(独自算出の注目度): 52.530286579915284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) models have shown vulnerability to
adversarial examples in multimodal tasks. Furthermore, malicious adversaries
can be deliberately transferred to attack other black-box models. However,
existing work has mainly focused on investigating white-box attacks. In this
paper, we present the first study to investigate the adversarial
transferability of recent VLP models. We observe that existing methods exhibit
much lower transferability, compared to the strong attack performance in
white-box settings. The transferability degradation is partly caused by the
under-utilization of cross-modal interactions. Particularly, unlike unimodal
learning, VLP models rely heavily on cross-modal interactions and the
multimodal alignments are many-to-many, e.g., an image can be described in
various natural languages. To this end, we propose a highly transferable
Set-level Guidance Attack (SGA) that thoroughly leverages modality interactions
and incorporates alignment-preserving augmentation with cross-modal guidance.
Experimental results demonstrate that SGA could generate adversarial examples
that can strongly transfer across different VLP models on multiple downstream
vision-language tasks. On image-text retrieval, SGA significantly enhances the
attack success rate for transfer attacks from ALBEF to TCL by a large margin
(at least 9.78% and up to 30.21%), compared to the state-of-the-art.
- Abstract(参考訳): 視覚言語事前学習(VLP)モデルは、マルチモーダルタスクにおける敵の例に対する脆弱性を示す。
さらに、悪意のある敵は意図的に他のブラックボックスモデルを攻撃することができる。
しかし、既存の研究は主にホワイトボックス攻撃の調査に焦点を当てている。
本稿では,近年のVLPモデルの逆転送性について検討する。
既存の手法は, ホワイトボックス設定における攻撃性能よりもはるかに低い転送性を示す。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
特に、単項学習とは異なり、VLPモデルはクロスモーダル相互作用に強く依存しており、マルチモーダルアライメントは多対多である(例えば、画像は様々な自然言語で記述できる)。
そこで本研究では,モダリティインタラクションを徹底的に活用し,アライメント保存強化とクロスモーダルガイダンスを組み込んだ,高度に転送可能なセットレベル誘導攻撃(sga)を提案する。
実験により、SGAは複数の下流視覚言語タスクにおいて、異なるVLPモデル間で強く伝達可能な逆例を生成できることを示した。
画像テキスト検索において、SGAはALBEFからTCLへの転送攻撃の攻撃成功率(少なくとも9.78%、最大30.21%)を最先端と比較して著しく向上させる。
関連論文リスト
- VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Bag of Tricks to Boost Adversarial Transferability [33.60725634048421]
ホワイトボックス設定で生成された逆例は、しばしば異なるモデル間で低い転送可能性を示す。
そこで本研究では,既存の敵攻撃の微妙な変化が攻撃性能に大きく影響することを発見した。
既存の敵攻撃の綿密な研究に基づいて、敵の移動性を高めるためのトリックの袋を提案する。
論文 参考訳(メタデータ) (2024-01-16T17:42:36Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via
Pre-trained Models [46.14455492739906]
VL(Vision-Language)事前訓練モデルは、多くのマルチモーダルタスクにおいて優位性を示している。
既存のアプローチは主に、ホワイトボックス設定下での敵の堅牢性を探究することに焦点を当てている。
本稿では,VLATTACKを用いて,画像とテキストの摂動を単一モードレベルとマルチモードレベルの両方から分離し,対向サンプルを生成する。
論文 参考訳(メタデータ) (2023-10-07T02:18:52Z) - Towards Adversarial Attack on Vision-Language Pre-training Models [15.882687207499373]
本稿では,V+LモデルとV+Lタスクに対する敵対的攻撃について検討した。
異なる対象や攻撃対象の影響を調べた結果,強力なマルチモーダル攻撃を設計するための指針として,いくつかの重要な観測結果が得られた。
論文 参考訳(メタデータ) (2022-06-19T12:55:45Z) - Cross-Modal Transferable Adversarial Attacks from Images to Videos [82.0745476838865]
近年の研究では、一方のホワイトボックスモデルで手作りされた敵の例は、他のブラックボックスモデルを攻撃するために使用できることが示されている。
本稿では,イメージ・トゥ・ビデオ(I2V)攻撃と呼ばれる,シンプルだが効果的なクロスモーダル・アタック手法を提案する。
I2Vは、事前訓練された画像モデルの特徴と良質な例とのコサイン類似性を最小化して、対向フレームを生成する。
論文 参考訳(メタデータ) (2021-12-10T08:19:03Z) - Towards Transferable Adversarial Attacks on Vision Transformers [110.55845478440807]
視覚変換器(ViT)は、コンピュータビジョンの一連のタスクにおいて印象的なパフォーマンスを示してきたが、それでも敵の例に悩まされている。
本稿では、PNA攻撃とPatchOut攻撃を含むデュアルアタックフレームワークを導入し、異なるViT間での対向サンプルの転送性を改善する。
論文 参考訳(メタデータ) (2021-09-09T11:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。