論文の概要: Visual Adversarial Attack on Vision-Language Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2411.18275v1
- Date: Wed, 27 Nov 2024 12:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:34.718793
- Title: Visual Adversarial Attack on Vision-Language Models for Autonomous Driving
- Title(参考訳): 自律運転のための視覚言語モデルに対する視覚的対立攻撃
- Authors: Tianyuan Zhang, Lu Wang, Xinwei Zhang, Yitong Zhang, Boyi Jia, Siyuan Liang, Shengshan Hu, Qiang Fu, Aishan Liu, Xianglong Liu,
- Abstract要約: 視覚言語モデル(VLM)は推論能力を高めることにより、かなり高度な自律運転(AD)を持つ。
これらのモデルは、敵の攻撃に対して非常に脆弱なままである。
本稿では,ADVLMに特化して設計された最初の視覚的敵攻撃フレームワークであるADvLMを提案する。
- 参考スコア(独自算出の注目度): 34.520523134588345
- License:
- Abstract: Vision-language models (VLMs) have significantly advanced autonomous driving (AD) by enhancing reasoning capabilities. However, these models remain highly vulnerable to adversarial attacks. While existing research has primarily focused on general VLM attacks, the development of attacks tailored to the safety-critical AD context has been largely overlooked. In this paper, we take the first step toward designing adversarial attacks specifically targeting VLMs in AD, exposing the substantial risks these attacks pose within this critical domain. We identify two unique challenges for effective adversarial attacks on AD VLMs: the variability of textual instructions and the time-series nature of visual scenarios. To this end, we propose ADvLM, the first visual adversarial attack framework specifically designed for VLMs in AD. Our framework introduces Semantic-Invariant Induction, which uses a large language model to create a diverse prompt library of textual instructions with consistent semantic content, guided by semantic entropy. Building on this, we introduce Scenario-Associated Enhancement, an approach where attention mechanisms select key frames and perspectives within driving scenarios to optimize adversarial perturbations that generalize across the entire scenario. Extensive experiments on several AD VLMs over multiple benchmarks show that ADvLM achieves state-of-the-art attack effectiveness. Moreover, real-world attack studies further validate its applicability and potential in practice.
- Abstract(参考訳): 視覚言語モデル(VLM)は推論能力を高めることにより、かなり高度な自律運転(AD)を持つ。
しかし、これらのモデルは敵の攻撃に対して非常に脆弱なままである。
既存の研究は主に一般的なVLM攻撃に焦点を当てているが、安全クリティカルなADコンテキストに合わせた攻撃の開発はほとんど見過ごされている。
本稿では,AD における VLM を対象とする敵攻撃の設計に向けての第一歩を踏み出し,これらの攻撃が重要な領域にもたらす重大なリスクを明らかにする。
我々は,AD VLMに対する効果的な敵攻撃には,テキスト命令の可変性と視覚シナリオの時系列特性の2つの固有の課題を同定する。
この目的のために,AD における VLM に特化して設計された最初の視覚的敵攻撃フレームワーク ADvLM を提案する。
このフレームワークは,意味論的エントロピーによって導かれる,一貫した意味的内容を持つテキスト命令の多様なプロンプトライブラリを作成するために,大きな言語モデルを用いたセマンティック不変帰納法を導入している。
そこで我々は,シナリオ全体にわたって一般化する対向的摂動を最適化するために,注意機構が駆動シナリオ内の重要なフレームと視点を選択するアプローチであるScenario-Associated Enhancementを紹介した。
複数のベンチマーク上でのAD VLMの大規模な実験により、ADvLMは最先端の攻撃効果を達成することが示された。
さらに、実世界の攻撃研究は、その適用可能性と実際の可能性をさらに検証する。
関連論文リスト
- LLM-attacker: Enhancing Closed-loop Adversarial Scenario Generation for Autonomous Driving with Large Language Models [39.139025989575686]
大規模言語モデル(LLM)を利用したアクセルループ逆シナリオ生成フレームワーク
交通参加者の行動を操作して安全クリティカルな事象を誘発する逆シナリオ生成法が開発されている。
LLM攻撃者は、他の方法よりも危険なシナリオを作成でき、それを用いて訓練されたADSは、通常のシナリオでのトレーニングの半分の衝突率を達成する。
論文 参考訳(メタデータ) (2025-01-27T08:18:52Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - Towards Adversarially Robust Vision-Language Models: Insights from Design Choices and Prompt Formatting Techniques [12.907116223796201]
VLM(Vision-Language Models)は、研究と現実世界の両方の応用が急増しているのを目撃している。
本研究は,画像ベース攻撃に対するVLMの対角的ロバスト性に対するモデル設計選択の影響を系統的に検討する。
論文 参考訳(メタデータ) (2024-07-15T18:00:01Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography [21.632703081999036]
Vision-Large-Language-Models (Vision-LLMs)は、自律走行(AD)システムに統合されつつある。
我々は,ビジョンLLMの意思決定能力に頼って,ADシステムに対するタイポグラフィー攻撃を活用することを提案する。
論文 参考訳(メタデータ) (2024-05-23T04:52:02Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。