Fugu-MT 論文翻訳(概要): Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory

論文の概要: Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory

arxiv url: http://arxiv.org/abs/2403.12445v1
Date: Tue, 19 Mar 2024 05:10:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 15:22:07.537200
Title: Boosting Transferability in Vision-Language Attacks via Diversification along the Intersection Region of Adversarial Trajectory
Title（参考訳）: 対向軌道の断面積に沿った多角化による視覚言語攻撃の伝達性向上
Authors: Sensen Gao, Xiaojun Jia, Xuhong Ren, Ivor Tsang, Qing Guo,
Abstract要約: 視覚言語事前学習モデルは多モーダル逆例(AE)の影響を受けやすい本研究では,AEsの多様性を拡大するために,対向軌道の交点領域に沿って多様化する手法を提案する。潜在的なオーバーフィッティングを緩和するため、最適化経路に沿った最後の交差点領域から逸脱する逆テキストを指示する。
参考スコア（独自算出の注目度）: 8.591762884862504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language pre-training (VLP) models exhibit remarkable capabilities in comprehending both images and text, yet they remain susceptible to multimodal adversarial examples (AEs). Strengthening adversarial attacks and uncovering vulnerabilities, especially common issues in VLP models (e.g., high transferable AEs), can stimulate further research on constructing reliable and practical VLP models. A recent work (i.e., Set-level guidance attack) indicates that augmenting image-text pairs to increase AE diversity along the optimization path enhances the transferability of adversarial examples significantly. However, this approach predominantly emphasizes diversity around the online adversarial examples (i.e., AEs in the optimization period), leading to the risk of overfitting the victim model and affecting the transferability. In this study, we posit that the diversity of adversarial examples towards the clean input and online AEs are both pivotal for enhancing transferability across VLP models. Consequently, we propose using diversification along the intersection region of adversarial trajectory to expand the diversity of AEs. To fully leverage the interaction between modalities, we introduce text-guided adversarial example selection during optimization. Furthermore, to further mitigate the potential overfitting, we direct the adversarial text deviating from the last intersection region along the optimization path, rather than adversarial images as in existing methods. Extensive experiments affirm the effectiveness of our method in improving transferability across various VLP models and downstream vision-and-language tasks (e.g., Image-Text Retrieval(ITR), Visual Grounding(VG), Image Captioning(IC)).
Abstract（参考訳）: 視覚言語事前学習(VLP)モデルは、画像とテキストの両方を解釈する際、顕著な能力を示すが、多モーダル対逆例(AE)の影響を受けやすい。敵攻撃の強化と脆弱性の発見、特にVLPモデルの一般的な問題(例えば、高転送性AE)は、信頼性と実用的なVLPモデルの構築に関するさらなる研究を刺激することができる。最近の研究(すなわち、セットレベル誘導攻撃)は、最適化経路に沿ってAEの多様性を高めるために画像とテキストのペアを増大させることが、敵の例の転送可能性を大幅に向上させることを示している。しかし、このアプローチは、主にオンライン敵の事例(すなわち最適化期間におけるAE)の多様性を強調し、被害者モデルに過度に適合し、転送可能性に影響を与えるリスクをもたらす。本研究では,VLPモデル間の転送可能性を高めるために,クリーンインプットとオンラインAEに対する逆例の多様性が重要であることを示唆する。そこで本稿では,AEsの多様性を拡大するために,対向軌道の交差領域に沿った多様化手法を提案する。モダリティ間の相互作用をフル活用するために,最適化中のテキスト誘導対逆例選択を導入する。さらに,潜在的なオーバーフィッティングを緩和するために,既存手法のような逆画像ではなく,最適化経路に沿った最終交差点領域から逸脱した逆テキストを指示する。広汎な実験により、VLPモデルと下流の視覚・言語タスク(例えば、画像テキスト検索(ITR)、ビジュアルグラウンド(VG)、画像キャプション(IC))間での転送性を向上させる方法の有効性が確認された。

関連論文リスト

Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction [67.45032003041399]
本研究では,先進的かつ意味論的に誘導された摂動を通じて対向的伝達性を高めるセマンティック・ダイナミック・コントラシブ・アタック(SADCA)を提案する。 SADCAは、対立、正、負のサンプルを含む対照的な学習メカニズムを確立し、得られた摂動の意味的不整合を強化する。複数のデータセットとモデルの実験により、SADCAは対向移動性を大幅に改善し、最先端の手法を一貫して超えることを示した。
論文参考訳（メタデータ） (2026-03-05T05:46:16Z)
Enhancing Adversarial Transferability in Visual-Language Pre-training Models via Local Shuffle and Sample-based Attack [6.190046662134303]
ローカルシャッフルとサンプルベースアタック(LSSA)という新たな攻撃法を提案する。 LSSAはローカル画像ブロックの1つをランダムにシャッフルし、元の画像テキストペアを拡張し、逆画像を生成し、それらをサンプリングする。複数のモデルとデータセットの実験により、LSSAはマルチモーダル逆数例の転送可能性を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-11-02T06:55:49Z)
Boosting the Local Invariance for Better Adversarial Transferability [4.75067406339309]
トランスファーベースの攻撃は、現実世界のアプリケーションに重大な脅威をもたらす。 LI-Boost (Local Invariance Boosting approach) と呼ばれる一般対向転送可能性向上手法を提案する。標準のImageNetデータセットの実験では、LI-Boostがさまざまなタイプの転送ベースの攻撃を著しく強化できることが示された。
論文参考訳（メタデータ） (2025-03-08T09:44:45Z)
Boosting Adversarial Transferability with Spatial Adversarial Alignment [56.97809949196889]
ディープニューラルネットワークは、様々なモデルにまたがる転送可能性を示す敵の例に対して脆弱である。本稿では,アライメント損失を利用してサロゲートモデルを微調整する手法を提案する。 ImageNet上の様々なアーキテクチャの実験では、SAAに基づくアライメントされたサロゲートモデルにより、より高い転送可能な逆の例が得られることが示されている。
論文参考訳（メタデータ） (2025-01-02T02:35:47Z)
Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文参考訳（メタデータ） (2024-11-04T23:07:51Z)
Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文参考訳（メタデータ） (2024-08-24T04:31:37Z)
SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文参考訳（メタデータ） (2023-12-08T09:08:50Z)
OT-Attack: Enhancing Adversarial Transferability of Vision-Language Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文参考訳（メタデータ） (2023-12-07T16:16:50Z)
Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文参考訳（メタデータ） (2023-07-26T09:19:21Z)
Making Substitute Models More Bayesian Can Enhance Transferability of Adversarial Examples [89.85593878754571]
ディープニューラルネットワークにおける敵の例の転送可能性は多くのブラックボックス攻撃の欠如である。我々は、望ましい転送可能性を達成するためにベイズモデルを攻撃することを提唱する。我々の手法は近年の最先端を大きなマージンで上回る。
論文参考訳（メタデータ） (2023-02-10T07:08:13Z)
Exploring Transferable and Robust Adversarial Perturbation Generation from the Perspective of Network Hierarchy [52.153866313879924]
敵の例の移動可能性と堅牢性は、ブラックボックスの敵攻撃の実用的かつ重要な2つの性質である。伝送可能で頑健な逆生成法(TRAP)を提案する。我々のTRAPは、ある種の干渉に対して印象的な伝達性と高い堅牢性を実現する。
論文参考訳（メタデータ） (2021-08-16T11:52:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。