論文の概要: BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization
- arxiv url: http://arxiv.org/abs/2505.16640v1
- Date: Thu, 22 May 2025 13:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.308143
- Title: BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization
- Title(参考訳): BadVLA:Objective-Decoupled Optimizationによるビジョンランゲージ・アクションモデルに対するバックドアアタックに向けて
- Authors: Xueyang Zhou, Guiyao Tie, Guowen Zhang, Hechang Wang, Pan Zhou, Lichao Sun,
- Abstract要約: BadVLAはObjective-Decoupled Optimizationに基づくバックドア攻撃手法である。
我々は,BadVLAがクリーンタスク精度に最小限の影響を伴って,ほぼ100%の攻撃成功率を達成することを示す。
我々の研究は、VLAモデルにおけるバックドア脆弱性に関する最初の体系的な調査を提供する。
- 参考スコア(独自算出の注目度): 45.97834622654751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have advanced robotic control by enabling end-to-end decision-making directly from multimodal inputs. However, their tightly coupled architectures expose novel security vulnerabilities. Unlike traditional adversarial perturbations, backdoor attacks represent a stealthier, persistent, and practically significant threat-particularly under the emerging Training-as-a-Service paradigm-but remain largely unexplored in the context of VLA models. To address this gap, we propose BadVLA, a backdoor attack method based on Objective-Decoupled Optimization, which for the first time exposes the backdoor vulnerabilities of VLA models. Specifically, it consists of a two-stage process: (1) explicit feature-space separation to isolate trigger representations from benign inputs, and (2) conditional control deviations that activate only in the presence of the trigger, while preserving clean-task performance. Empirical results on multiple VLA benchmarks demonstrate that BadVLA consistently achieves near-100% attack success rates with minimal impact on clean task accuracy. Further analyses confirm its robustness against common input perturbations, task transfers, and model fine-tuning, underscoring critical security vulnerabilities in current VLA deployments. Our work offers the first systematic investigation of backdoor vulnerabilities in VLA models, highlighting an urgent need for secure and trustworthy embodied model design practices. We have released the project page at https://badvla-project.github.io/.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、マルチモーダル入力から直接エンドツーエンドの意思決定を可能にすることにより、高度なロボット制御を実現する。
しかしながら、密結合したアーキテクチャは、新たなセキュリティ脆弱性を公開する。
従来の敵対的摂動とは異なり、バックドア攻撃はステルス性があり、永続的で、特に新興のトレーニング・アズ・ア・サービス・パラダイムの下では重大な脅威である。
このギャップに対処するため、我々はObjective-Decoupled Optimizationに基づくバックドアアタック手法であるBadVLAを提案し、VLAモデルのバックドア脆弱性を初めて明らかにした。
具体的には、(1)ベニグインプットからトリガー表現を分離するための明示的な特徴空間分離、(2)クリーンタスク性能を維持しながらトリガーの存在下でのみ活性化される条件制御逸脱の2段階からなる。
複数のVLAベンチマークの実証結果から、BadVLAはクリーンタスクの精度に最小限の影響を伴って、ほぼ100%の攻撃成功率を達成した。
さらなる分析では、現在のVLAデプロイメントにおける重要なセキュリティ脆弱性を裏付ける、一般的な入力摂動、タスク転送、モデル微調整に対する堅牢性を確認している。
我々の研究は、VLAモデルのバックドア脆弱性を初めて体系的に調査し、安全で信頼性の高い実施可能なモデル設計プラクティスに対する緊急の必要性を強調します。
プロジェクトページはhttps://badvla-project.github.io/で公開しています。
関連論文リスト
- Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace [15.457992715866995]
本稿では,タスク干渉とバックドア脆弱性を同時に軽減する新しいDAM手法を提案する。
既存のマージ手法と比較して、DAMはパフォーマンスとセキュリティのバランスが良く、攻撃成功率を2-10ポイント削減する。
論文 参考訳(メタデータ) (2024-10-17T00:13:31Z) - Backdooring Vision-Language Models with Out-Of-Distribution Data [44.40928756056506]
視覚言語モデル(VLM)は視覚入力から詳細なテキスト記述を生成する。
重要性は増しているが、特にバックドア攻撃に対するVLMの安全性は検討中である。
VLOOD(Backdooring Vision-Language Models with Out-of-Distribution Data)は、2つの重要なコントリビューションを持つ新しいアプローチである。
論文 参考訳(メタデータ) (2024-10-02T06:21:00Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - Generalization-Enhanced Code Vulnerability Detection via Multi-Task Instruction Fine-Tuning [16.54022485688803]
VulLLMは、マルチタスク学習をLarge Language Models (LLM)と統合して、ディープシークな脆弱性機能を効果的にマイニングする新しいフレームワークである。
6つの大きなデータセットで実施された実験は、VulLLMが有効性、一般化、堅牢性という観点から7つの最先端モデルを上回ることを示した。
論文 参考訳(メタデータ) (2024-06-06T03:29:05Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。