論文の概要: Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models
- arxiv url: http://arxiv.org/abs/2409.13174v2
- Date: Mon, 4 Nov 2024 14:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 11:29:51.862656
- Title: Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models
- Title(参考訳): 操作フェース脅威:エンド・ツー・エンド視覚言語行動モデルにおける身体的脆弱性の評価
- Authors: Hao Cheng, Erjia Xiao, Chengyuan Yu, Zhao Yao, Jiahang Cao, Qiang Zhang, Jiaxu Wang, Mengshu Sun, Kaidi Xu, Jindong Gu, Renjing Xu,
- Abstract要約: 視覚言語行動モデル(VLAM)は、ロボット操作タスクのオープン語彙シナリオにおいて、より良いパフォーマンスを達成するために提案されている。
本稿では,潜在的な物理的脅威に直面したVLAMを包括的に評価する。
PVEPの物理的脅威には、特にOut-of-Distribution、タイポグラフィーベースのビジュアルプロンプト、Adversarial Patch Attacksが含まれる。
- 参考スコア(独自算出の注目度): 27.220134059545934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, driven by advancements in Multimodal Large Language Models (MLLMs), Vision Language Action Models (VLAMs) are being proposed to achieve better performance in open-vocabulary scenarios for robotic manipulation tasks. Since manipulation tasks involve direct interaction with the physical world, ensuring robustness and safety during the execution of this task is always a very critical issue. In this paper, by synthesizing current safety research on MLLMs and the specific application scenarios of the manipulation task in the physical world, we comprehensively evaluate VLAMs in the face of potential physical threats. Specifically, we propose the Physical Vulnerability Evaluating Pipeline (PVEP) that can incorporate as many visual modal physical threats as possible for evaluating the physical robustness of VLAMs. The physical threats in PVEP specifically include Out-of-Distribution, Typography-based Visual Prompts, and Adversarial Patch Attacks. By comparing the performance fluctuations of VLAMs before and after being attacked, we provide generalizable Analyses of how VLAMs respond to different physical security threats. Our project page is in this link: https://chaducheng.github.io/Manipulat-Facing-Threats/.
- Abstract(参考訳): 近年、ロボット操作タスクのオープン語彙シナリオにおいて、より優れたパフォーマンスを実現するために、MLLM(Multimodal Large Language Models)やVLAM(Vision Language Action Models)が提案されている。
操作タスクは物理的世界との直接的な相互作用を伴うため、このタスクの実行時の堅牢性と安全性を保証することは、常に非常に重要な問題である。
本稿では、MLLMの現在の安全性研究と物理世界での操作タスクの具体的な適用シナリオを合成することにより、潜在的な物理的脅威に直面したVLAMを包括的に評価する。
具体的には、VLAMの物理的堅牢性を評価するために、できるだけ多くの視覚的な物理的脅威を組み込むことのできる物理的脆弱性評価パイプライン(PVEP)を提案する。
PVEPの物理的脅威には、特にOut-of-Distribution、タイポグラフィーベースのVisual Prompts、Adversarial Patch Attacksが含まれる。
攻撃前後のVLAMの性能変動を比較することで、VLAMが物理的に異なる脅威にどう反応するかを一般化可能な分析を行う。
私たちのプロジェクトページは以下のリンクにある。
関連論文リスト
- Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Towards Transferable Attacks Against Vision-LLMs in Autonomous Driving with Typography [21.632703081999036]
Vision-Large-Language-Models (Vision-LLMs)は、自律走行(AD)システムに統合されつつある。
我々は,ビジョンLLMの意思決定能力に頼って,ADシステムに対するタイポグラフィー攻撃を活用することを提案する。
論文 参考訳(メタデータ) (2024-05-23T04:52:02Z) - Safeguarding Vision-Language Models Against Patched Visual Prompt Injectors [31.383591942592467]
視覚言語モデル(VLM)は、視覚とテキストのデータを組み合わせて理解と相互作用を強化する革新的な方法を提供する。
パッチベースの敵攻撃は、物理的な視覚応用において最も現実的な脅威モデルと考えられている。
本研究では,スムージング技術に根ざした防御機構であるSmoothVLMを導入し,VLMをパッチ付き視覚プロンプトインジェクタの脅威から保護する。
論文 参考訳(メタデータ) (2024-05-17T04:19:19Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Attack-SAM: Towards Attacking Segment Anything Model With Adversarial
Examples [68.5719552703438]
Segment Anything Model (SAM) は、様々なダウンストリームタスクにおける印象的なパフォーマンスのために、最近大きな注目を集めている。
深い視覚モデルは敵の例に弱いと広く認識されており、それはモデルを騙して知覚不能な摂動で間違った予測をする。
この研究は、SAMの攻撃方法に関する総合的な調査を敵対的な例で実施した最初のものである。
論文 参考訳(メタデータ) (2023-05-01T15:08:17Z) - Physical Adversarial Attack meets Computer Vision: A Decade Survey [55.38113802311365]
本稿では,身体的敵意攻撃の概要を概観する。
本研究は,身体的敵意攻撃の性能を体系的に評価する第一歩を踏み出した。
提案する評価基準であるhiPAAは6つの視点から構成される。
論文 参考訳(メタデータ) (2022-09-30T01:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。