論文の概要: When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2511.16203v2
- Date: Sun, 23 Nov 2025 07:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 13:28:09.691442
- Title: When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models
- Title(参考訳): アライメントが失敗したとき:ビジョン・ランゲージ・アクション・モデルに対するマルチモーダル・アタック
- Authors: Yuping Yan, Yuhan Xie, Yixin Zhang, Lingjuan Lyu, Handing Wang, Yaochu Jin,
- Abstract要約: 我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
- 参考スコア(独自算出の注目度): 75.16145284285456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action models (VLAs) have recently demonstrated remarkable progress in embodied environments, enabling robots to perceive, reason, and act through unified multimodal understanding. Despite their impressive capabilities, the adversarial robustness of these systems remains largely unexplored, especially under realistic multimodal and black-box conditions. Existing studies mainly focus on single-modality perturbations and overlook the cross-modal misalignment that fundamentally affects embodied reasoning and decision-making. In this paper, we introduce VLA-Fool, a comprehensive study of multimodal adversarial robustness in embodied VLA models under both white-box and black-box settings. VLA-Fool unifies three levels of multimodal adversarial attacks: (1) textual perturbations through gradient-based and prompt-based manipulations, (2) visual perturbations via patch and noise distortions, and (3) cross-modal misalignment attacks that intentionally disrupt the semantic correspondence between perception and instruction. We further incorporate a VLA-aware semantic space into linguistic prompts, developing the first automatically crafted and semantically guided prompting framework. Experiments on the LIBERO benchmark using a fine-tuned OpenVLA model reveal that even minor multimodal perturbations can cause significant behavioral deviations, demonstrating the fragility of embodied multimodal alignment.
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、ロボットがマルチモーダル理解を通じて知覚、理性、行動を可能にする、エンボディ環境における顕著な進歩を最近証明した。
特に現実的なマルチモーダル条件やブラックボックス条件下では、これらのシステムの対角的堅牢性はほとんど探索されていない。
現存する研究は主に単一モダリティの摂動に焦点を当て、具体的推論と意思決定に根本的な影響を及ぼすモダリティの相違を見落としている。
本稿では,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向性に関する総合的研究であるVLA-Foolを紹介する。
VLA-Foolは,(1)グラデーションベースおよびプロンプトベース操作によるテキストの摂動,(2)パッチとノイズの歪みによる視覚的摂動,(3)知覚と指示の間の意味的対応を意図的に妨害するクロスモーダル・アライメント・アタックの3つのレベルを統一する。
さらに,VLAを意識した意味空間を言語的プロンプトに組み込んで,自動生成・意味指導型プロンプトフレームワークを開発した。
細調整されたOpenVLAモデルを用いたLIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな振る舞いのずれを引き起こし、エンボディされたマルチモーダルアライメントの脆弱さを示す。
関連論文リスト
- Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Improving Adversarial Transferability in MLLMs via Dynamic Vision-Language Alignment Attack [16.70399451598529]
DynVLAアタック(Dynamic Vision-Language Alignment, DynVLA)は,視覚言語コネクタに動的摂動を注入し,様々なモデルの視覚言語アライメントの一般化を促進する手法である。
実験の結果,DynVLAはBLIP2,InstructBLIP,MiniGPT4,LLaVA,およびGeminiなどのクローズドソースモデルなど,さまざまなMLLMの逆例の転送可能性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-02-27T01:33:19Z) - Doubly-Universal Adversarial Perturbations: Deceiving Vision-Language Models Across Both Images and Text with a Single Perturbation [15.883062174902093]
VLM(Large Vision-Language Models)は、視覚エンコーダとLLM(Large Language Model)を統合することで、マルチモーダルタスクにまたがる顕著な性能を示す。
VLMに特化して設計された新しいUAPについて紹介する:Douubly-Universal Adversarial Perturbation (Douubly-UAP)
論文 参考訳(メタデータ) (2024-12-11T05:23:34Z) - Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach [30.9778838504609]
トランスを用いた視覚言語事前学習は、多数のマルチモーダルタスクにおいて例外的な性能を示した。
既存のマルチモーダルアタック手法は、視覚とテキストのモダリティ間のクロスモーダルな相互作用をほとんど見落としている。
本稿では,視覚的・テキスト的両モードの対向的摂動を同時に導入する,JMTFA(Joint Multimodal Transformer Feature Attack)を提案する。
論文 参考訳(メタデータ) (2024-08-24T04:31:37Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。