論文の概要: Inject Once Survive Later: Backdooring Vision-Language-Action Models to Persist Through Downstream Fine-tuning
- arxiv url: http://arxiv.org/abs/2602.00500v1
- Date: Sat, 31 Jan 2026 03:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 05:18:11.404824
- Title: Inject Once Survive Later: Backdooring Vision-Language-Action Models to Persist Through Downstream Fine-tuning
- Title(参考訳): Inject Once Survive later: Backdooring Vision-Language-Action Models Persist through Downstream Fine-tuning
- Authors: Jianyi Zhou, Yujie Wei, Ruichen Zhen, Bo Zhao, Xiaobo Xia, Rui Shao, Xiu Su, Shuo Yang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、現代のAIシステムの基礎となっている。
近年,VLAモデルにバックドアを注入する手法が提案されている。
VLAベースモデルのための最初のバックドアアタックフレームワークであるINFUSEを提案する。
- 参考スコア(独自算出の注目度): 31.711305518359424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have become foundational to modern embodied AI systems. By integrating visual perception, language understanding, and action planning, they enable general-purpose task execution across diverse environments. Despite their importance, the security of VLA models remains underexplored -- particularly in the context of backdoor attacks, which pose realistic threats in physical-world deployments. While recent methods attempt to inject backdoors into VLA models, these backdoors are easily erased during downstream adaptation, as user-side fine-tuning with clean data significantly alters model parameters, rendering them impractical for real-world applications. To address these challenges, we propose INFUSE (INjection into Fine-tUne-inSensitive modulEs), the first backdoor attack framework for VLA base models that remains effective even with arbitrary user fine-tuning. INFUSE begins by analyzing parameter sensitivity across diverse fine-tuning scenarios to identify modules that remain largely unchanged -- the fine-tune-insensitive modules. It then injects backdoors into these stable modules while freezing the rest, ensuring malicious behavior persists after extensive user fine-tuning. Comprehensive experiments across multiple VLA architectures demonstrate INFUSE's effectiveness. After user-side fine-tuning, INFUSE maintains mean attack success rates of 91.0% on simulation environments and 79.8% on real-world robot tasks, substantially surpassing BadVLA (38.8% and 36.6%, respectively), while preserving clean-task performance comparable to standard models. These results uncover a critical threat: backdoors implanted before distribution can persist through fine-tuning and remain effective at deployment.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、現代のAIシステムの基礎となっている。
視覚認識、言語理解、行動計画を統合することで、様々な環境にまたがる汎用的なタスク実行を可能にする。
その重要性にもかかわらず、VLAモデルのセキュリティは未調査のままであり、特にバックドア攻撃の文脈では、物理世界の展開に現実的な脅威をもたらす。
最近の手法では、VLAモデルにバックドアを注入しようとするが、これらのバックドアは下流適応時に容易に消去される。
これらの課題に対処するために,ユーザが任意の微調整をしても有効なVLAベースモデルのバックドアアタックフレームワークであるINFUSE(Injection into Fine-tUne-inSensitive modulEs)を提案する。
INFUSEは、さまざまな微調整シナリオでパラメータの感度を分析して、ほとんど変化のないモジュールを識別することから始まる。
その後、これらの安定したモジュールにバックドアを注入し、残りを凍結し、広範囲のユーザーによる微調整の後、悪意のある振る舞いが持続する。
複数のVLAアーキテクチャにわたる総合的な実験は、INFUSEの有効性を示している。
ユーザー側の微調整の後、INFUSEはシミュレーション環境で91.0%、現実世界のロボットタスクで79.8%の攻撃成功率を維持し、BadVLA(それぞれ38.8%と36.6%)を大幅に上回っている。
配置前に移植されたバックドアは、微調整によって持続し、デプロイに有効である。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - NutVLM: A Self-Adaptive Defense Framework against Full-Dimension Attacks for Vision Language Models in Autonomous Driving [6.189595231250727]
視覚言語モデル(VLM)は、自律運転(AD)において高度な認識を持っているが、敵の脅威に弱いままである。
認識・判断のライフサイクル全体を確保するために設計された総合的な自己適応型防衛フレームワークであるNutVLMを提案する。
論文 参考訳(メタデータ) (2026-02-09T05:42:59Z) - State Backdoor: Towards Stealthy Real-world Poisoning Attack on Vision-Language-Action Model in State Space [42.234025453061875]
VLA(Vision-Language-Action)モデルは、ロボット工学などの安全クリティカルな実施AIアプリケーションに広く採用されている。
我々は,ロボットアームの初期状態をトリガーとして活用する,新規で実用的なバックドア攻撃であるState Backdoorを紹介した。
提案手法は,攻撃成功率の90%以上を良質なタスク性能に影響を与えることなく達成し,組込みAIシステムにおける未探索の脆弱性を明らかにする。
論文 参考訳(メタデータ) (2026-01-07T08:54:31Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - TabVLA: Targeted Backdoor Attacks on Vision-Language-Action Models [63.51290426425441]
バックドア付きVLAエージェントは、プレインジェクトされたバックドアによって隠蔽的にトリガーされ、敵のアクションを実行することができる。
我々は,VLAモデルに対するターゲットバックドア攻撃について検討し,ブラックボックスファインチューニングによる攻撃を可能にする新しいフレームワークであるTabVLAを紹介した。
我々の研究は、バックドア操作をターゲットにしたVLAモデルの脆弱性を強調し、より高度な防御の必要性を強調します。
論文 参考訳(メタデータ) (2025-10-13T02:45:48Z) - InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization [45.97834622654751]
BadVLAはObjective-Decoupled Optimizationに基づくバックドア攻撃手法である。
我々は,BadVLAがクリーンタスク精度に最小限の影響を伴って,ほぼ100%の攻撃成功率を達成することを示す。
我々の研究は、VLAモデルにおけるバックドア脆弱性に関する最初の体系的な調査を提供する。
論文 参考訳(メタデータ) (2025-05-22T13:12:46Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。