論文の概要: Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
- arxiv url: http://arxiv.org/abs/2403.12445v2
- Date: Wed, 10 Jul 2024 15:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 21:29:48.873922
- Title: Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
- Title(参考訳): 対向軌道の断面積に沿った多角化による視覚言語攻撃の伝達性向上
- Authors: Sensen Gao, Xiaojun Jia, Xuhong Ren, Ivor Tsang, Qing Guo,
- Abstract要約: 視覚言語事前学習モデルは多モーダル逆例(AE)の影響を受けやすい
本研究では,AEsの多様性を拡大するために,対向軌道の交点領域に沿って多様化する手法を提案する。
潜在的なオーバーフィッティングを緩和するため、最適化経路に沿った最後の交差点領域から逸脱する逆テキストを指示する。
- 参考スコア(独自算出の注目度): 8.591762884862504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) models exhibit remarkable capabilities in comprehending both images and text, yet they remain susceptible to multimodal adversarial examples (AEs).Strengthening attacks and uncovering vulnerabilities, especially common issues in VLP models (e.g., high transferable AEs), can advance reliable and practical VLP models. A recent work (i.e., Set-level guidance attack) indicates that augmenting image-text pairs to increase AE diversity along the optimization path enhances the transferability of adversarial examples significantly. However, this approach predominantly emphasizes diversity around the online adversarial examples (i.e., AEs in the optimization period), leading to the risk of overfitting the victim model and affecting the transferability.In this study, we posit that the diversity of adversarial examples towards the clean input and online AEs are both pivotal for enhancing transferability across VLP models. Consequently, we propose using diversification along the intersection region of adversarial trajectory to expand the diversity of AEs.To fully leverage the interaction between modalities, we introduce text-guided adversarial example selection during optimization. Furthermore, to further mitigate the potential overfitting, we direct the adversarial text deviating from the last intersection region along the optimization path, rather than adversarial images as in existing methods.Extensive experiments affirm the effectiveness of our method in improving transferability across various VLP models and downstream vision-and-language tasks.
- Abstract(参考訳): 視覚言語事前学習(VLP)モデルは、画像とテキストの両方を解釈する際、顕著な能力を示すが、多モーダル対逆例(AE)の影響を受けやすい。
攻撃の強化と脆弱性の発見、特にVLPモデルの一般的な問題(高転送性AEなど)は、信頼性と実用的なVLPモデルを前進させる可能性がある。
最近の研究(すなわち、セットレベル誘導攻撃)は、最適化経路に沿ってAEの多様性を高めるために画像とテキストのペアを増大させることが、敵の例の転送可能性を大幅に向上させることを示している。
しかし,本手法は,オンラインの敵対的事例(最適化期間におけるAE)の多様性を重視し,被害者モデルに過度に適合し,伝達可能性に影響を及ぼすリスクを負う。
そこで本稿では,AEsの多様性を高めるために,対向軌道の交叉領域に沿った多角化を利用する手法を提案する。
さらに, 既存手法のような逆画像ではなく, 最適化経路に沿った最終交差点領域から逸脱する逆テキストを誘導し, 様々なVLPモデルと下流視覚・言語タスク間の伝達性向上における本手法の有効性を確認した。
関連論文リスト
- Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models [17.958154849014576]
大規模視覚言語モデル(VLM)のロバスト性を評価するために、敵対的攻撃を用いることができる。
従来のトランスファーベースの敵攻撃は、高いイテレーション数と複雑なメソッド構造により、高いコストを発生させる。
本稿では, 拡散モデルを用いて, 自然, 制約のない, 対象とする対向的な例を生成するAdvDiffVLMを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:19:52Z) - Improving Adversarial Transferability of Vision-Language Pre-training Models through Collaborative Multimodal Interaction [22.393624206051925]
既存の研究は、ビジョンランゲージ事前訓練モデルに対する攻撃の伝達可能性を研究することはめったにない。
我々はCMI-Attack(Collaborative Multimodal Interaction Attack)と呼ばれる新しい攻撃を提案する。
CMI-AttackはALBEFからTCL、textCLIP_textViT$と$textCLIP_textCNN$の転送成功率を8.11%-16.75%向上させる。
論文 参考訳(メタデータ) (2024-03-16T10:32:24Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Making Substitute Models More Bayesian Can Enhance Transferability of
Adversarial Examples [89.85593878754571]
ディープニューラルネットワークにおける敵の例の転送可能性は多くのブラックボックス攻撃の欠如である。
我々は、望ましい転送可能性を達成するためにベイズモデルを攻撃することを提唱する。
我々の手法は近年の最先端を大きなマージンで上回る。
論文 参考訳(メタデータ) (2023-02-10T07:08:13Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Exploring Transferable and Robust Adversarial Perturbation Generation
from the Perspective of Network Hierarchy [52.153866313879924]
敵の例の移動可能性と堅牢性は、ブラックボックスの敵攻撃の実用的かつ重要な2つの性質である。
伝送可能で頑健な逆生成法(TRAP)を提案する。
我々のTRAPは、ある種の干渉に対して印象的な伝達性と高い堅牢性を実現する。
論文 参考訳(メタデータ) (2021-08-16T11:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。