論文の概要: PhysPatch: A Physically Realizable and Transferable Adversarial Patch Attack for Multimodal Large Language Models-based Autonomous Driving Systems
- arxiv url: http://arxiv.org/abs/2508.05167v1
- Date: Thu, 07 Aug 2025 08:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.672431
- Title: PhysPatch: A Physically Realizable and Transferable Adversarial Patch Attack for Multimodal Large Language Models-based Autonomous Driving Systems
- Title(参考訳): PhysPatch:マルチモーダル大規模言語モデルに基づく自律走行システムのための物理的に実現可能な、移動可能な逆パッチ攻撃
- Authors: Qi Guo, Xiaojun Jia, Shanmin Pang, Simeng Qin, Lin Wang, Ju Jia, Yang Liu, Qing Guo,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、視覚言語推論能力の強いために、自律運転(AD)システムに不可欠なものになりつつある。
MLLMは敵の攻撃、特に敵のパッチ攻撃に対して脆弱であり、現実世界のシナリオで深刻な脅威を引き起こす可能性がある。
既存のパッチベースの攻撃方法は、主にオブジェクト検出モデルのために設計されており、MLLMベースのシステムに転送すると性能が良くない。
MLLMベースのADシステムに適した転送可能な逆パッチフレームワークであるPhysPatchを提案する。
- 参考スコア(独自算出の注目度): 19.662595797799387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are becoming integral to autonomous driving (AD) systems due to their strong vision-language reasoning capabilities. However, MLLMs are vulnerable to adversarial attacks, particularly adversarial patch attacks, which can pose serious threats in real-world scenarios. Existing patch-based attack methods are primarily designed for object detection models and perform poorly when transferred to MLLM-based systems due to the latter's complex architectures and reasoning abilities. To address these limitations, we propose PhysPatch, a physically realizable and transferable adversarial patch framework tailored for MLLM-based AD systems. PhysPatch jointly optimizes patch location, shape, and content to enhance attack effectiveness and real-world applicability. It introduces a semantic-based mask initialization strategy for realistic placement, an SVD-based local alignment loss with patch-guided crop-resize to improve transferability, and a potential field-based mask refinement method. Extensive experiments across open-source, commercial, and reasoning-capable MLLMs demonstrate that PhysPatch significantly outperforms prior methods in steering MLLM-based AD systems toward target-aligned perception and planning outputs. Moreover, PhysPatch consistently places adversarial patches in physically feasible regions of AD scenes, ensuring strong real-world applicability and deployability.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、視覚言語推論能力の強いために、自律運転(AD)システムに不可欠なものになりつつある。
しかし、MLLMは敵の攻撃、特に敵のパッチ攻撃に対して脆弱であり、現実世界のシナリオで深刻な脅威を引き起こす可能性がある。
既存のパッチベースの攻撃方法は、主にオブジェクト検出モデルのために設計されており、後者の複雑なアーキテクチャと推論能力のためにMLLMベースのシステムに移行すると、性能が低下する。
これらの制約に対処するため、MLLMベースのADシステムに適した物理的に実現可能で転送可能な逆パッチフレームワークであるPhysPatchを提案する。
PhysPatchは、パッチの位置、形状、コンテンツを共同で最適化し、攻撃の有効性と現実の応用性を高める。
現実的な配置のためのセマンティックベースのマスク初期化戦略,パッチ誘導作物の小型化によるSVDベースの局所アライメント損失による転送性の向上,および潜在的フィールドベースのマスク改善手法を導入する。
オープンソース、商用、および推論可能なMLLMの広範な実験により、PhysPatchはMLLMベースのADシステムを目標に整合した認識と計画出力に向けて操る従来の方法よりも大幅に優れていたことが示されている。
さらに、PhysPatchは、ADシーンの物理的に実現可能な領域に敵のパッチを一貫して配置し、強力な実世界の適用性とデプロイ性を保証する。
関連論文リスト
- Attack the Messages, Not the Agents: A Multi-round Adaptive Stealthy Tampering Framework for LLM-MAS [12.649568006596956]
言語モデルに基づく大規模マルチエージェントシステム(LLM-MAS)は,エージェント間通信によって複雑な動的タスクを効果的に実現する。
LLM-MASを標的とする既存の攻撃方法は、エージェント内部を妥協するか、直接的および過度な説得に依存している。
システム内の通信脆弱性を利用したマルチラウンド適応型ステルスタイピングフレームワークであるMASTを提案する。
論文 参考訳(メタデータ) (2025-08-05T06:14:53Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - Optimization-Free Patch Attack on Stereo Depth Estimation [51.792201754821804]
ステレオ深さ推定(SDE)に対する最初の逆パッチアタックである PatchHunter を提示する。
PatchHunterは、SDEの仮定を乱すために作られた、構造化された視覚パターンの空間に対する強化学習駆動の探索として、パッチ生成を定式化している。
PatchHunterは、KITTIデータセット、CARLAシミュレータ、現実世界の車両展開という3つのレベルにまたがって検証します。
論文 参考訳(メタデータ) (2025-06-21T08:23:02Z) - Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning [69.5875073447454]
本稿では,大規模言語モデル(LLM)によって強化された動作エージェントを,動的・乱雑な環境における自律的なナビゲーションに向けて前進させる。
トレーニング不要なフレームワークは、マルチエージェント調整、クローズドループ計画、動的障害物回避を、リトレーニングや微調整なしでサポートしています。
論文 参考訳(メタデータ) (2025-03-10T13:39:09Z) - Adversarial Training for Multimodal Large Language Models against Jailbreak Attacks [17.75247947379804]
MLLM訓練期間中のジェイルブレイク攻撃に対する防御を目的とした,最初の対人訓練パラダイムを提示する。
エンド・ツー・エンドのATフレームワークであるProEAT(Projection Layer Against Adversarial Training)を紹介する。
ProEATは最先端の防御性能を達成し、テキストと画像のモダリティの平均マージン+34%で既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-03-05T14:13:35Z) - AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - Self-Healing Machine Learning: A Framework for Autonomous Adaptation in Real-World Environments [50.310636905746975]
実世界の機械学習システムは、基礎となるデータ生成プロセスの分散シフトによって、モデルの性能劣化に遭遇することが多い。
概念のドリフト適応のような既存のシフトへのアプローチは、その理性に依存しない性質によって制限される。
我々はこれらの制限を克服するために自己修復機械学習(SHML)を提案する。
論文 参考訳(メタデータ) (2024-10-31T20:05:51Z) - Development of an Edge Resilient ML Ensemble to Tolerate ICS Adversarial Attacks [0.9437165725355702]
敵の攻撃に耐えられるように設計された、レジリエントなエッジ機械学習アーキテクチャを構築します。
reMLはResilient DDDASパラダイム、移動目標防衛(MTD)理論、TinyMLに基づいている。
提案手法は電力効率とプライバシ保護であり,ISCのセキュリティを高めるため,電力制約のあるデバイスにデプロイすることができる。
論文 参考訳(メタデータ) (2024-09-26T19:37:37Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - Adversarial Robustness for Visual Grounding of Multimodal Large Language Models [49.71757071535619]
MLLM(Multi-modal Large Language Models)は近年,様々な視覚言語タスクのパフォーマンス向上を実現している。
MLLMでは、視覚的グラウンドリングの対角的堅牢性は未発見のままである。
本稿では,次の3つの攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:54:26Z) - Invisible for both Camera and LiDAR: Security of Multi-Sensor Fusion
based Perception in Autonomous Driving Under Physical-World Attacks [62.923992740383966]
本稿では,MDFに基づくADシステムにおけるセキュリティ問題の最初の研究について述べる。
物理的に実現可能な逆3Dプリントオブジェクトを生成し、ADシステムが検出に失敗してクラッシュする。
以上の結果から,攻撃は様々なオブジェクトタイプおよびMSFに対して90%以上の成功率を達成した。
論文 参考訳(メタデータ) (2021-06-17T05:11:07Z) - On Fast Adversarial Robustness Adaptation in Model-Agnostic
Meta-Learning [100.14809391594109]
モデルに依存しないメタラーニング(MAML)は、数発の学習において最も成功したメタラーニング手法の1つである。
メタモデルの一般化力にもかかわらず、マルチショット学習においてMDLがいかに敵対的堅牢性を維持することができるかは明らかではない。
本稿では,ラベルなしデータ拡張,高速な攻撃生成,計算量軽微な微調整を可能にする,汎用的かつ最適化が容易なロバストネス正規化メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-20T22:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。