論文の概要: Unveiling the Fragility of Vision-Language Models: Multi-Modal Adversarial Synergy via Texture-Constrained Perturbations and Cross-Modal Optimization
- arxiv url: http://arxiv.org/abs/2605.26501v1
- Date: Tue, 26 May 2026 03:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.603354
- Title: Unveiling the Fragility of Vision-Language Models: Multi-Modal Adversarial Synergy via Texture-Constrained Perturbations and Cross-Modal Optimization
- Title(参考訳): 視覚言語モデルの脆弱性を解消する: テクスチュア制約摂動とクロスモーダル最適化によるマルチモーダル逆相乗法
- Authors: Xiang Fang, Wanlong Fang, Changshuo Wang,
- Abstract要約: 我々は,LVLMに対する汎用的でブラックボックスなマルチモーダル攻撃を実現するフレームワークであるMulti-Modal Adrial Synergyを紹介する。
MMASは、画像に対する普遍的な逆摂動と、テキストに対する学習可能な即時摂動を同時に生成する。
本実験は,LVLMを用いた攻撃の強い普遍的対角能力を示すものである。
- 参考スコア(独自算出の注目度): 15.851694572297612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have transformed multi-modal understanding, excelling in tasks like image captioning and visual question answering by integrating visual and textual inputs. However, their robustness against adversarial attacks, particularly those exploiting both modalities, remains underexplored, posing risks to critical applications like autonomous driving and content moderation. Existing attacks focus on single modalities or require impractical white-box access, limiting their real-world relevance. In this paper, we introduce Multi-Modal Adversarial Synergy, a groundbreaking framework that crafts universal, black-box multi-modal attacks against LVLMs. MMAS simultaneously generates a texture scale-constrained universal adversarial perturbation for images and a learnable prompt perturbation for text, optimized jointly using only model queries. The image perturbation leverages wavelet-based texture constraints to ensure imperceptibility and robustness across diverse visual inputs. The text perturbation, constrained by an L-norm in the embedding space, maintains semantic coherence while steering outputs toward a target. A novel cross-modal regularization term aligns the perturbations' gradient directions, enhancing their synergistic impact and transferability across tasks and models. Extensive experiments show the strong universal adversarial capabilities of our proposed attack with prevalent LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚とテキストの入力を統合することで、画像キャプションや視覚的質問応答といったタスクに優れたマルチモーダル理解を変換している。
しかし、敵の攻撃、特に両方のモダリティを悪用する攻撃に対する頑強さは未発見のままであり、自動運転やコンテンツモデレーションといった重要な応用にリスクを及ぼす。
既存の攻撃は単一のモダリティにフォーカスするか、非現実的なホワイトボックスアクセスを必要とし、現実の関連性を制限している。
本稿では,LVLMに対する汎用的でブラックボックスなマルチモーダルアタックを実現する基盤的フレームワークであるMulti-Modal Adversarial Synergyを紹介する。
MMASは、画像に対するテクスチャスケール制約付き普遍的対角摂動と、モデルクエリのみを併用して最適化されたテキストに対する学習可能な即時摂動とを同時に生成する。
画像摂動はウェーブレットベースのテクスチャ制約を活用して、多様な視覚入力における不知覚性と堅牢性を保証する。
埋め込み空間のLノルムによって制約されたテキスト摂動は、目標に向かって出力を操りながら意味的コヒーレンスを維持する。
新たなクロスモーダル正規化項は摂動の勾配方向を整列させ、それらの相乗的影響とタスクやモデル間の伝達可能性を高める。
広汎な実験により,提案したLVLMを用いた攻撃の強い普遍的対向能力が示された。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models [67.45032003041399]
本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。
MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。
我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2026-03-05T06:01:26Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - CoDefend: Cross-Modal Collaborative Defense via Diffusion Purification and Prompt Optimization [4.6467356929461925]
MLLM(Multimodal Large Language Models)は、画像キャプション、視覚的質問応答、モーダル間推論といったタスクにおいて顕著な成功を収めている。
彼らのマルチモーダルな性質は敵の脅威に晒され、攻撃者はモダリティまたは共同で有害な、誤解を招く、あるいは政策に違反するアウトプットを誘導することができる。
敵の訓練や入力の浄化といった既存の防衛戦略は、顕著な制限に直面している。
本稿では,2対の逆方向のクリーンな画像データセットをファインチューン拡散モデルに活用する,教師付き拡散に基づくDenoisingフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T07:44:54Z) - Proxy-Embedding as an Adversarial Teacher: An Embedding-Guided Bidirectional Attack for Referring Expression Segmentation Models [7.064823891326925]
Referring Expression (RES)は、自然言語記述に基づく画像の正確なオブジェクトセグメンテーションを可能にする。
その印象的な性能にもかかわらず、RESモデルの敵の例に対する堅牢性はほとんど解明されていない。
本稿では RES モデルに対する埋め込み誘導双方向攻撃 PEAT を提案する。
論文 参考訳(メタデータ) (2025-06-19T09:14:04Z) - Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。