論文の概要: Universal Camouflage Attack on Vision-Language Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.20196v1
- Date: Wed, 24 Sep 2025 14:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.86331
- Title: Universal Camouflage Attack on Vision-Language Models for Autonomous Driving
- Title(参考訳): 自律走行のためのビジョンランゲージモデルに対するユニバーサルカモフラージュ攻撃
- Authors: Dehong Kong, Sifan Yu, Siyuan Liang, Jiawei Liang, Jianhou Gan, Aishan Liu, Wenqi Ren,
- Abstract要約: 自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
- 参考スコア(独自算出の注目度): 67.34987318443761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual language modeling for automated driving is emerging as a promising research direction with substantial improvements in multimodal reasoning capabilities. Despite its advanced reasoning abilities, VLM-AD remains vulnerable to serious security threats from adversarial attacks, which involve misleading model decisions through carefully crafted perturbations. Existing attacks have obvious challenges: 1) Physical adversarial attacks primarily target vision modules. They are difficult to directly transfer to VLM-AD systems because they typically attack low-level perceptual components. 2) Adversarial attacks against VLM-AD have largely concentrated on the digital level. To address these challenges, we propose the first Universal Camouflage Attack (UCA) framework for VLM-AD. Unlike previous methods that focus on optimizing the logit layer, UCA operates in the feature space to generate physically realizable camouflage textures that exhibit strong generalization across different user commands and model architectures. Motivated by the observed vulnerability of encoder and projection layers in VLM-AD, UCA introduces a feature divergence loss (FDL) that maximizes the representational discrepancy between clean and adversarial images. In addition, UCA incorporates a multi-scale learning strategy and adjusts the sampling ratio to enhance its adaptability to changes in scale and viewpoint diversity in real-world scenarios, thereby improving training stability. Extensive experiments demonstrate that UCA can induce incorrect driving commands across various VLM-AD models and driving scenarios, significantly surpassing existing state-of-the-art attack methods (improving 30\% in 3-P metrics). Furthermore, UCA exhibits strong attack robustness under diverse viewpoints and dynamic conditions, indicating high potential for practical deployment.
- Abstract(参考訳): 自動運転のためのビジュアル言語モデリングは、マルチモーダル推論機能を大幅に改善した、有望な研究方向として現れつつある。
高度な推論能力にもかかわらず、VLM-ADは敵の攻撃による深刻なセキュリティ上の脅威に弱いままであり、慎重に構築された摂動を通じてモデル決定を誤解させる。
既存の攻撃には明らかな課題がある。
1)身体的敵攻撃は主に視覚モジュールを標的とした。
通常は低レベルの知覚コンポーネントを攻撃するため、VLM-ADシステムへの直接転送は困難である。
2) VLM-ADに対する攻撃はデジタルレベルに大きく集中している。
これらの課題に対処するために、VLM-ADのための最初のユニバーサルカモフラージュ攻撃(UCA)フレームワークを提案する。
ロジット層を最適化することに集中する従来の方法とは異なり、UCAは機能領域で動作し、物理的に実現可能なカモフラージュテクスチャを生成し、異なるユーザコマンドやモデルアーキテクチャにわたって強力な一般化を示す。
UCAは、VLM-ADにおけるエンコーダとプロジェクション層の脆弱性に触発され、クリーン画像と逆画像の表現差を最大化する特徴分散損失(FDL)を導入した。
さらに、UCAはマルチスケール学習戦略を導入し、サンプル比を調整し、実世界のシナリオにおけるスケールや視点の多様性の変化への適応性を高め、トレーニングの安定性を向上させる。
大規模な実験により、UCAは様々なVLM-ADモデルと運転シナリオの不正な運転コマンドを誘導でき、既存の最先端攻撃手法(3Pメトリクスで30倍)を大幅に上回っている。
さらに、UCAは多様な視点と動的条件の下で強力な攻撃堅牢性を示し、実用的な展開の可能性を示している。
関連論文リスト
- FreezeVLA: Action-Freezing Attacks against Vision-Language-Action Models [124.02734355214325]
Vision-Language-Action(VLA)モデルはロボティクスの急速な進歩を加速している。
敵画像はVLAモデルを「凍結」し、その後の命令を無視する。
FreezeVLAは、min-maxバイレベル最適化を通じて、アクション凍結攻撃を生成し、評価する。
論文 参考訳(メタデータ) (2025-09-24T08:15:28Z) - Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models [26.656858396343726]
MLLM(Multi-modal Large Language Models)は、視覚言語タスクにおいて優れているが、視覚的逆境の摂動に弱いままである。
既存の手法では、ImageNet-scaleデータ上でCLIPビジョンエンコーダに制約付き逆調整を適用することにより、これらのリスクを軽減する方法が提案されている。
本稿では,大規模データに対して逆向きに事前学習された既存の視覚分類モデルを活用する方法を提案する。
論文 参考訳(メタデータ) (2025-02-03T17:59:45Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation [15.883062174902093]
VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。
VLMに特化して設計された新しいUAPについて紹介する:Douubly-Universal Adversarial Perturbation (Douubly-UAP)
論文 参考訳(メタデータ) (2024-12-11T05:23:34Z) - Visual Adversarial Attack on Vision-Language Models for Autonomous Driving [34.520523134588345]
視覚言語モデル(VLM)は推論能力を高めることにより、かなり高度な自律運転(AD)を持つ。
これらのモデルは、敵の攻撃に対して非常に脆弱なままである。
本稿では,ADVLMに特化して設計された最初の視覚的敵攻撃フレームワークであるADvLMを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:09:43Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。