論文の概要: Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
- arxiv url: http://arxiv.org/abs/2403.12445v3
- Date: Sun, 14 Jul 2024 15:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 01:25:37.976953
- Title: Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
- Title(参考訳): 対向軌道の断面積に沿った多角化による視覚言語攻撃の伝達性向上
- Authors: Sensen Gao, Xiaojun Jia, Xuhong Ren, Ivor Tsang, Qing Guo,
- Abstract要約: 視覚言語事前学習モデルは多モーダル逆例(AE)の影響を受けやすい
我々は,AEsの多様性を拡大するために,対向軌道の交差領域に沿った多様化を利用することを提案する。
潜在的なオーバーフィッティングを緩和するため、最適化経路に沿った最後の交差点領域から逸脱する逆テキストを指示する。
- 参考スコア(独自算出の注目度): 8.591762884862504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) models exhibit remarkable capabilities in comprehending both images and text, yet they remain susceptible to multimodal adversarial examples (AEs). Strengthening attacks and uncovering vulnerabilities, especially common issues in VLP models (e.g., high transferable AEs), can advance reliable and practical VLP models. A recent work (i.e., Set-level guidance attack) indicates that augmenting image-text pairs to increase AE diversity along the optimization path enhances the transferability of adversarial examples significantly. However, this approach predominantly emphasizes diversity around the online adversarial examples (i.e., AEs in the optimization period), leading to the risk of overfitting the victim model and affecting the transferability. In this study, we posit that the diversity of adversarial examples towards the clean input and online AEs are both pivotal for enhancing transferability across VLP models. Consequently, we propose using diversification along the intersection region of adversarial trajectory to expand the diversity of AEs. To fully leverage the interaction between modalities, we introduce text-guided adversarial example selection during optimization. Furthermore, to further mitigate the potential overfitting, we direct the adversarial text deviating from the last intersection region along the optimization path, rather than adversarial images as in existing methods. Extensive experiments affirm the effectiveness of our method in improving transferability across various VLP models and downstream vision-and-language tasks.
- Abstract(参考訳): 視覚言語事前学習(VLP)モデルは、画像とテキストの両方を解釈する際、顕著な能力を示すが、多モーダル対逆例(AE)の影響を受けやすい。
攻撃の強化と脆弱性の発見、特にVLPモデルの一般的な問題(高転送性AEなど)は、信頼性と実用的なVLPモデルを前進させる可能性がある。
最近の研究(すなわち、セットレベル誘導攻撃)は、最適化経路に沿ってAEの多様性を高めるために画像とテキストのペアを増大させることが、敵の例の転送可能性を大幅に向上させることを示している。
しかし、このアプローチは、主にオンライン敵の事例(すなわち最適化期間におけるAE)の多様性を強調し、被害者モデルに過度に適合し、転送可能性に影響を与えるリスクをもたらす。
本研究では,VLPモデル間の転送可能性を高めるために,クリーンインプットとオンラインAEに対する逆例の多様性が重要であることを示唆する。
そこで本稿では,AEsの多様性を拡大するために,対向軌道の交差領域に沿った多様化手法を提案する。
モダリティ間の相互作用をフル活用するために,最適化中のテキスト誘導対逆例選択を導入する。
さらに,潜在的なオーバーフィッティングを緩和するために,既存手法のような逆画像ではなく,最適化経路に沿った最終交差点領域から逸脱した逆テキストを指示する。
広汎な実験により,様々なVLPモデル間の伝達性向上と,下流の視覚・言語タスクの有効性が確認された。
関連論文リスト
- Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z) - Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。
既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。
本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:31:37Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Making Substitute Models More Bayesian Can Enhance Transferability of
Adversarial Examples [89.85593878754571]
ディープニューラルネットワークにおける敵の例の転送可能性は多くのブラックボックス攻撃の欠如である。
我々は、望ましい転送可能性を達成するためにベイズモデルを攻撃することを提唱する。
我々の手法は近年の最先端を大きなマージンで上回る。
論文 参考訳(メタデータ) (2023-02-10T07:08:13Z) - Exploring Transferable and Robust Adversarial Perturbation Generation
from the Perspective of Network Hierarchy [52.153866313879924]
敵の例の移動可能性と堅牢性は、ブラックボックスの敵攻撃の実用的かつ重要な2つの性質である。
伝送可能で頑健な逆生成法(TRAP)を提案する。
我々のTRAPは、ある種の干渉に対して印象的な伝達性と高い堅牢性を実現する。
論文 参考訳(メタデータ) (2021-08-16T11:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。