論文の概要: A Two-Stage Globally-Diverse Adversarial Attack for Vision-Language Pre-training Models
- arxiv url: http://arxiv.org/abs/2601.12304v1
- Date: Sun, 18 Jan 2026 08:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.56306
- Title: A Two-Stage Globally-Diverse Adversarial Attack for Vision-Language Pre-training Models
- Title(参考訳): ビジョンランゲージ事前学習モデルに対する2段階のグローバル・ディバイバー・アタック
- Authors: Wutao Chen, Huaqin Zou, Chen Wan, Lifeng Huang,
- Abstract要約: 既存のマルチモーダル攻撃は、限られた摂動多様性と不安定なマルチステージパイプラインに悩まされることが多い。
本稿では,2段階のグローバル・クロス・アタック・フレームワークである2S-GDAを提案する。
我々のフレームワークはモジュラーであり、既存の手法と簡単に組み合わせて、対向移動性をさらに高めることができる。
- 参考スコア(独自算出の注目度): 3.9965186683223606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training (VLP) models are vulnerable to adversarial examples, particularly in black-box scenarios. Existing multimodal attacks often suffer from limited perturbation diversity and unstable multi-stage pipelines. To address these challenges, we propose 2S-GDA, a two-stage globally-diverse attack framework. The proposed method first introduces textual perturbations through a globally-diverse strategy by combining candidate text expansion with globally-aware replacement. To enhance visual diversity, image-level perturbations are generated using multi-scale resizing and block-shuffle rotation. Extensive experiments on VLP models demonstrate that 2S-GDA consistently improves attack success rates over state-of-the-art methods, with gains of up to 11.17\% in black-box settings. Our framework is modular and can be easily combined with existing methods to further enhance adversarial transferability.
- Abstract(参考訳): 視覚言語事前訓練(VLP)モデルは、特にブラックボックスのシナリオにおいて、敵対的な例に対して脆弱である。
既存のマルチモーダル攻撃は、限られた摂動多様性と不安定なマルチステージパイプラインに悩まされることが多い。
これらの課題に対処するため,我々は2段階のグローバル・ディバース・アタック・フレームワークである2S-GDAを提案する。
提案手法はまず,候補のテキスト展開とグローバル認識の置き換えを組み合わせることで,大域的多元的戦略を通じてテキスト摂動を導入する。
視覚的多様性を高めるため、マルチスケールリサイズとブロックシャッフル回転を用いて画像レベルの摂動を生成する。
VLPモデルの大規模な実験により、2S-GDAは最先端の手法よりも攻撃成功率を継続的に改善し、ブラックボックス設定で最大11.17\%のゲインが得られた。
我々のフレームワークはモジュラーであり、既存の手法と簡単に組み合わせて、対向移動性をさらに高めることができる。
関連論文リスト
- Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models [41.79238283279954]
HRAは、サンプルレベルと最適化レベルの両方で普遍対向摂動(UAP)を洗練する。
画像のモダリティについては、敵の例をクリーンな画像と摂動に切り離し、各コンポーネントを独立して扱うことができる。
テキストのモダリティについて、HRAは文内重要度と文間重要度を組み合わせ、世界的影響力のある単語を識別する。
論文 参考訳(メタデータ) (2026-01-15T11:45:56Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - Enhancing Adversarial Transferability in Visual-Language Pre-training Models via Local Shuffle and Sample-based Attack [6.190046662134303]
ローカルシャッフルとサンプルベースアタック(LSSA)という新たな攻撃法を提案する。
LSSAはローカル画像ブロックの1つをランダムにシャッフルし、元の画像テキストペアを拡張し、逆画像を生成し、それらをサンプリングする。
複数のモデルとデータセットの実験により、LSSAはマルチモーダル逆数例の転送可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-11-02T06:55:49Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。
本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文 参考訳(メタデータ) (2025-02-03T17:59:45Z) - Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。
I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。
本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-03T09:25:04Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Cross-Modality Attack Boosted by Gradient-Evolutionary Multiform Optimization [4.226449585713182]
クロスモーダル・アタックは、トランスファービリティーへの攻撃に重大な課題をもたらす。
マルチフォームアタック(multiform attack)と呼ばれる,新たなクロスモーダルアタック戦略を提案する。
従来の手法と比較して,マルチフォームアタックの優位性とロバスト性を示す。
論文 参考訳(メタデータ) (2024-09-26T15:52:34Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。