論文の概要: Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack
- arxiv url: http://arxiv.org/abs/2411.02669v1
- Date: Mon, 04 Nov 2024 23:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:59:59.844047
- Title: Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack
- Title(参考訳): 高透過性ビジョンランゲージアタックのためのセマンティックアライメント型逆展開三角法
- Authors: Xiaojun Jia, Sensen Gao, Qing Guo, Ke Ma, Yihao Huang, Simeng Qin, Yang Liu, Ivor Tsang Fellow, Xiaochun Cao,
- Abstract要約: 視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
- 参考スコア(独自算出の注目度): 51.16384207202798
- License:
- Abstract: Vision-language pre-training (VLP) models excel at interpreting both images and text but remain vulnerable to multimodal adversarial examples (AEs). Advancing the generation of transferable AEs, which succeed across unseen models, is key to developing more robust and practical VLP models. Previous approaches augment image-text pairs to enhance diversity within the adversarial example generation process, aiming to improve transferability by expanding the contrast space of image-text features. However, these methods focus solely on diversity around the current AEs, yielding limited gains in transferability. To address this issue, we propose to increase the diversity of AEs by leveraging the intersection regions along the adversarial trajectory during optimization. Specifically, we propose sampling from adversarial evolution triangles composed of clean, historical, and current adversarial examples to enhance adversarial diversity. We provide a theoretical analysis to demonstrate the effectiveness of the proposed adversarial evolution triangle. Moreover, we find that redundant inactive dimensions can dominate similarity calculations, distorting feature matching and making AEs model-dependent with reduced transferability. Hence, we propose to generate AEs in the semantic image-text feature contrast space, which can project the original feature space into a semantic corpus subspace. The proposed semantic-aligned subspace can reduce the image feature redundancy, thereby improving adversarial transferability. Extensive experiments across different datasets and models demonstrate that the proposed method can effectively improve adversarial transferability and outperform state-of-the-art adversarial attack methods. The code is released at https://github.com/jiaxiaojunQAQ/SA-AET.
- Abstract(参考訳): 視覚言語事前学習(VLP)モデルは、画像とテキストの両方の解釈に優れるが、マルチモーダル対逆例(AE)に弱いままである。
トランスファー可能なAEの生成は、目に見えないモデルで成功するが、より堅牢で実用的なVLPモデルを開発する上で鍵となる。
従来のアプローチでは、画像テキストの特徴のコントラスト空間を拡張して、転送可能性を向上させることを目的として、画像テキストペアを拡大して、対向的なサンプル生成プロセス内の多様性を高める。
しかし、これらの手法は現在のAEの周囲の多様性にのみ焦点をあて、転送可能性の限界が生じる。
この問題に対処するために,最適化中の対向軌道に沿った交差点領域を活用することにより,AEsの多様性を高めることを提案する。
具体的には, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる, 敵の進化三角形からのサンプリングを提案する。
提案する対角展開三角形の有効性を理論的に検証する。
さらに、冗長な不活性次元が類似性計算を支配し、特徴マッチングを歪曲し、AEsモデルを伝達可能性の低減とともに依存させる。
そこで,本研究では,特徴空間を意味的コーパス部分空間に投影できる意味的画像-テキスト特徴コントラスト空間において,AEを生成することを提案する。
提案するセマンティックアライメントサブスペースは,画像特徴の冗長性を低減し,対向転送性を向上させる。
異なるデータセットやモデルにまたがる広範囲な実験により、提案手法は敵の移動性を効果的に改善し、最先端の敵攻撃法より優れた性能を発揮することを示した。
コードはhttps://github.com/jiaxiaojunQAQ/SA-AETで公開されている。
関連論文リスト
- Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory [8.591762884862504]
視覚言語事前学習モデルは多モーダル逆例(AE)の影響を受けやすい
我々は,AEsの多様性を拡大するために,対向軌道の交差領域に沿った多様化を利用することを提案する。
潜在的なオーバーフィッティングを緩和するため、最適化経路に沿った最後の交差点領域から逸脱する逆テキストを指示する。
論文 参考訳(メタデータ) (2024-03-19T05:10:10Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - TranSegPGD: Improving Transferability of Adversarial Examples on
Semantic Segmentation [62.954089681629206]
そこで本研究では, セグメンテーションにおける2段階の対角攻撃戦略を提案し, セグメンテーションにおける対角攻撃の伝達性を向上させる。
提案手法は,最先端の性能を達成できる。
論文 参考訳(メタデータ) (2023-12-03T00:48:33Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。