論文の概要: Challenging Vision-Language Models with Physically Deployable Multimodal Semantic Lighting Attacks
- arxiv url: http://arxiv.org/abs/2604.12833v1
- Date: Tue, 14 Apr 2026 14:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.517318
- Title: Challenging Vision-Language Models with Physically Deployable Multimodal Semantic Lighting Attacks
- Title(参考訳): 物理的に展開可能なマルチモーダル・セマンティック・ライティング・アタックを用いた視覚言語モデルの構築
- Authors: Yingying Zhao, Chengyin Hu, Qike Zhang, Xin Li, Xin Wang, Yiwei Wei, Jiujiang Guo, Jiahuan Long, Tingsong Jiang, Wen Yao,
- Abstract要約: VLM(Vision-Language Models)は優れた性能を示しているが、そのセキュリティは十分に理解されていない。
既存の敵対的な研究はほとんどデジタル設定に焦点を合わせており、物理世界の脅威はほとんど解明されていない。
VLMに対する物理的に展開可能な最初の攻撃フレームワークであるMultimodal Semantic Lighting Attacks (MSLA)を提案する。
- 参考スコア(独自算出の注目度): 23.938024446316717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have shown remarkable performance, yet their security remains insufficiently understood. Existing adversarial studies focus almost exclusively on the digital setting, leaving physical-world threats largely unexplored. As VLMs are increasingly deployed in real environments, this gap becomes critical, since adversarial perturbations must be physically realizable. Despite this practical relevance, physical attacks against VLMs have not been systematically studied. Such attacks may induce recognition failures and further disrupt multimodal reasoning, leading to severe semantic misinterpretation in downstream tasks. Therefore, investigating physical attacks on VLMs is essential for assessing their real-world security risks. To address this gap, we propose Multimodal Semantic Lighting Attacks (MSLA), the first physically deployable adversarial attack framework against VLMs. MSLA uses controllable adversarial lighting to disrupt multimodal semantic understanding in real scenes, attacking semantic alignment rather than only task-specific outputs. Consequently, it degrades zero-shot classification performance of mainstream CLIP variants while inducing severe semantic hallucinations in advanced VLMs such as LLaVA and BLIP across image captioning and visual question answering (VQA). Extensive experiments in both digital and physical domains demonstrate that MSLA is effective, transferable, and practically realizable. Our findings provide the first evidence that VLMs are highly vulnerable to physically deployable semantic attacks, exposing a previously overlooked robustness gap and underscoring the urgent need for physical-world robustness evaluation of VLMs.
- Abstract(参考訳): VLM(Vision-Language Models)は優れた性能を示しているが、そのセキュリティは十分に理解されていない。
既存の敵対的な研究はほとんどデジタル設定に焦点を合わせており、物理世界の脅威はほとんど解明されていない。
VLMが現実の環境にますます展開されるにつれて、このギャップは重要になり、対向的な摂動は物理的に実現可能でなければならない。
この実践的関連性にもかかわらず、VLMに対する物理的攻撃は体系的に研究されていない。
このような攻撃は認識障害を誘発し、さらにマルチモーダル推論を妨害し、下流のタスクで深刻な意味的誤解を引き起こす可能性がある。
したがって, VLMに対する物理的攻撃を調査することは, 現実のセキュリティリスクを評価する上で不可欠である。
このギャップに対処するために、VLMに対する最初の物理的に展開可能な逆攻撃フレームワークであるMultimodal Semantic Lighting Attacks (MSLA)を提案する。
MSLAは、制御可能な対向照明を使用して、実際のシーンにおけるマルチモーダルなセマンティック理解を妨害し、タスク固有の出力だけでなくセマンティックアライメントを攻撃している。
これにより、LLaVAやBLIPなどの高度なVLMにおいて、画像キャプションや視覚的質問応答(VQA)を介して、重度の意味幻覚を誘導しながら、主流のCLIPのゼロショット分類性能を低下させる。
デジタルドメインと物理ドメインの両方での大規模な実験は、MSLAが効果的で、転送可能で、事実上実現可能であることを示した。
我々の研究は,VLMが物理的に展開可能なセマンティックアタックに対して極めて脆弱であることを示す最初の証拠を提供し,これまで見過ごされていたロバスト性ギャップを露呈し,VLMの物理世界ロバスト性評価の緊急の必要性を浮き彫りにした。
関連論文リスト
- Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - Understanding and Enhancing Encoder-based Adversarial Transferability against Large Vision-Language Models [19.899086203883254]
大規模視覚言語モデル (LVLM) は、マルチモーダルタスクで顕著な成功を収めた。
視覚的な入力への依存は、大きな敵の脅威に晒される。
既存のエンコーダベースの攻撃は、LVLM全体ではなく、視覚エンコーダのみに最適化することで、入力画像を摂動させる。
本研究は,LVLMにおけるエンコーダを用いた対向転送性に関する最初の体系的研究である。
論文 参考訳(メタデータ) (2026-02-10T05:51:02Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - ADVEDM:Fine-grained Adversarial Attack against VLM-based Embodied Agents [40.066839771776046]
VLM(Vision-Language Models)は、意思決定タスクの具体化に広く使われている。
最近の研究は、脆弱性を明らかにするためにVLMに対する敵攻撃を調査している。
本稿では,数個のキーオブジェクトに対するVLMの認識を微粒化したADVEDMを提案する。
論文 参考訳(メタデータ) (2025-09-20T11:48:11Z) - Transferable Adversarial Attacks on Black-Box Vision-Language Models [63.22532779621001]
敵対的攻撃は、テキストのみのコンテキストとビジョンのみのコンテキストにおいて、オープンソースからプロプライエタリなブラックボックスモデルに移行することができる。
攻撃者は、特定の攻撃者による視覚情報の解釈を誘導するために、摂動を作れます。
普遍的な摂動 -- 広い範囲のイメージに適用可能な修正 -- は、これらの誤解釈を一貫して引き起こすことを発見した。
論文 参考訳(メタデータ) (2025-05-02T06:51:11Z) - Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models [79.60405008196139]
視覚言語行動モデル(VLAM)は、ロボット操作タスクのオープン語彙シナリオにおいて、より良いパフォーマンスを達成するために提案されている。
本稿では,潜在的な物理的脅威に直面したVLAMを包括的に評価する。
論文 参考訳(メタデータ) (2024-09-20T03:02:05Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。