Fugu-MT 論文翻訳(概要): Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

論文の概要: Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction

arxiv url: http://arxiv.org/abs/2603.04839v1
Date: Thu, 05 Mar 2026 05:46:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.092132
Title: Towards Highly Transferable Vision-Language Attack via Semantic-Augmented Dynamic Contrastive Interaction
Title（参考訳）: セマンティック強化動的コントラスト相互作用による高伝達性ビジョンランゲージアタックの実現に向けて
Authors: Yuanbo Li, Tianyang Xu, Cong Hu, Tao Zhou, Xiao-Jun Wu, Josef Kittler,
Abstract要約: 本研究では,先進的かつ意味論的に誘導された摂動を通じて対向的伝達性を高めるセマンティック・ダイナミック・コントラシブ・アタック(SADCA)を提案する。 SADCAは、対立、正、負のサンプルを含む対照的な学習メカニズムを確立し、得られた摂動の意味的不整合を強化する。複数のデータセットとモデルの実験により、SADCAは対向移動性を大幅に改善し、最先端の手法を一貫して超えることを示した。
参考スコア（独自算出の注目度）: 67.45032003041399
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rapid advancement and widespread application of vision-language pre-training (VLP) models, their vulnerability to adversarial attacks has become a critical concern. In general, the adversarial examples can typically be designed to exhibit transferable power, attacking not only different models but also across diverse tasks. However, existing attacks on language-vision models mainly rely on static cross-modal interactions and focus solely on disrupting positive image-text pairs, resulting in limited cross-modal disruption and poor transferability. To address this issue, we propose a Semantic-Augmented Dynamic Contrastive Attack (SADCA) that enhances adversarial transferability through progressive and semantically guided perturbation. SADCA progressively disrupts cross-modal alignment through dynamic interactions between adversarial images and texts. This is accomplished by SADCA establishing a contrastive learning mechanism involving adversarial, positive and negative samples, to reinforce the semantic inconsistency of the obtained perturbations. Moreover, we empirically find that input transformations commonly used in traditional transfer-based attacks also benefit VLPs, which motivates a semantic augmentation module that increases the diversity and generalization of adversarial examples. Extensive experiments on multiple datasets and models demonstrate that SADCA significantly improves adversarial transferability and consistently surpasses state-of-the-art methods. The code is released at https://github.com/LiYuanBoJNU/SADCA.
Abstract（参考訳）: 視覚言語事前訓練(VLP)モデルの急速な進歩と広範な適用により、敵の攻撃に対する脆弱性が重要視されている。一般に、敵の例は典型的には伝達可能なパワーを示すように設計され、異なるモデルだけでなく様々なタスクにわたって攻撃する。しかし、既存の言語ビジョンモデルに対する攻撃は主に静的なモーダル相互作用に依存し、正のイメージとテキストのペアを乱すことにのみ焦点をあてる。この問題に対処するために,先進的かつ意味論的に誘導された摂動を通じて対向的伝達性を高めるセマンティック・ダイナミック・コントラシブ・アタック(SADCA)を提案する。 SADCAは、対向画像とテキスト間の動的相互作用を通じて、段階的にモーダルアライメントを妨害する。 SADCAは、対向、正、負のサンプルを含む対照的な学習機構を確立し、得られた摂動の意味的不整合を補強する。さらに,従来のトランスファーベース攻撃でよく用いられる入力変換は,VLPの恩恵を受けることも実証的に確認した。複数のデータセットやモデルに対する大規模な実験により、SADCAは対向移動性を大幅に改善し、最先端の手法を一貫して超越していることが示されている。コードはhttps://github.com/LiYuanBoJNU/SADCAで公開されている。

関連論文リスト

When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。 LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文参考訳（メタデータ） (2025-11-20T10:14:32Z)
Boosting the Local Invariance for Better Adversarial Transferability [4.75067406339309]
トランスファーベースの攻撃は、現実世界のアプリケーションに重大な脅威をもたらす。 LI-Boost (Local Invariance Boosting approach) と呼ばれる一般対向転送可能性向上手法を提案する。標準のImageNetデータセットの実験では、LI-Boostがさまざまなタイプの転送ベースの攻撃を著しく強化できることが示された。
論文参考訳（メタデータ） (2025-03-08T09:44:45Z)
Boosting Adversarial Transferability with Spatial Adversarial Alignment [56.97809949196889]
ディープニューラルネットワークは、様々なモデルにまたがる転送可能性を示す敵の例に対して脆弱である。本稿では,アライメント損失を利用してサロゲートモデルを微調整する手法を提案する。 ImageNet上の様々なアーキテクチャの実験では、SAAに基づくアライメントされたサロゲートモデルにより、より高い転送可能な逆の例が得られることが示されている。
論文参考訳（メタデータ） (2025-01-02T02:35:47Z)
Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文参考訳（メタデータ） (2024-11-04T23:07:51Z)
Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models [17.958154849014576]
大規模視覚言語モデル(VLM)のロバスト性を評価するために、敵対的攻撃を用いることができる。従来のトランスファーベースの敵攻撃は、高いイテレーション数と複雑なメソッド構造により、高いコストを発生させる。本稿では, 拡散モデルを用いて, 自然, 制約のない, 対象とする対向的な例を生成するAdvDiffVLMを提案する。
論文参考訳（メタデータ） (2024-04-16T07:19:52Z)
Improving Adversarial Transferability of Vision-Language Pre-training Models through Collaborative Multimodal Interaction [22.393624206051925]
既存の研究は、ビジョンランゲージ事前訓練モデルに対する攻撃の伝達可能性を研究することはめったにない。我々はCMI-Attack(Collaborative Multimodal Interaction Attack)と呼ばれる新しい攻撃を提案する。 CMI-AttackはALBEFからTCL、textCLIP_textViT$と$textCLIP_textCNN$の転送成功率を8.11%-16.75%向上させる。
論文参考訳（メタデータ） (2024-03-16T10:32:24Z)
SA-Attack: Improving Adversarial Transferability of Vision-Language Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文参考訳（メタデータ） (2023-12-08T09:08:50Z)
Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文参考訳（メタデータ） (2023-07-26T09:19:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。