論文の概要: Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms
- arxiv url: http://arxiv.org/abs/2604.23775v1
- Date: Sun, 26 Apr 2026 15:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.541443
- Title: Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms
- Title(参考訳): ビジョン・ランゲージ・アクションの安全性:脅威、課題、評価、メカニズム
- Authors: Qi Li, Bo Yin, Weiqi Huang, Ruhao Liu, Bojun Zou, Runpeng Yu, Jingwen Ye, Weihao Yu, Xinchao Wang,
- Abstract要約: VLA(Vision-Language-Action)モデルがインボディードインテリジェンスのための統一された基盤として登場している。
この調査は、ビジョン・ランゲージ・アクションモデルにおける安全性の統一的で最新の概要を提供する。
- 参考スコア(独自算出の注目度): 61.29786895012393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models are emerging as a unified substrate for embodied intelligence. This shift raises a new class of safety challenges, stemming from the embodied nature of VLA systems, including irreversible physical consequences, a multimodal attack surface across vision, language, and state, real-time latency constraints on defense, error propagation over long-horizon trajectories, and vulnerabilities in the data supply chain. Yet the literature remains fragmented across robotic learning, adversarial machine learning, AI alignment, and autonomous systems safety. This survey provides a unified and up-to-date overview of safety in Vision-Language-Action models. We organize the field along two parallel timing axes, attack timing (training-time vs. inference-time and defense timing (training-time vs. inference-time, linking each class of threat to the stage at which it can be mitigated. We first define the scope of VLA safety, distinguishing it from text-only LLM safety and classical robotic safety, and review the foundations of VLA models, including architectures, training paradigms, and inference mechanisms. We then examine the literature through four lenses: Attacks, Defenses, Evaluation, and Deployment. We survey training-time threats such as data poisoning and backdoors, as well as inference-time attacks including adversarial patches, cross-modal perturbations, semantic jailbreaks, and freezing attacks. We review training-time and runtime defenses, analyze existing benchmarks and metrics, and discuss safety challenges across six deployment domains. Finally, we highlight key open problems, including certified robustness for embodied trajectories, physically realizable defenses, safety-aware training, unified runtime safety architectures, and standardized evaluation.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルがインボディードインテリジェンスのための統一された基盤として登場している。
このシフトは、VLAシステムの具現化された性質、可逆的な物理的結果、視覚、言語、状態にわたるマルチモーダル攻撃面、防衛上のリアルタイム遅延制限、長距離軌道上のエラー伝搬、データサプライチェーンの脆弱性など、新しいタイプの安全性上の課題を提起する。
しかし、文学はロボット学習、敵対的機械学習、AIアライメント、自律システムの安全性で断片化されている。
この調査は、ビジョン・ランゲージ・アクションモデルにおける安全性の統一的で最新の概要を提供する。
2つの並列タイミング軸に沿ってフィールドを編成し、攻撃タイミング(トレーニング時間対推論時間)と防御タイミング(トレーニング時間対推論時間)を調整し、各クラスの脅威を緩和可能なステージにリンクする。
まず、VLAの安全性の範囲を定義し、テキストのみのLLM安全性と古典的なロボット安全性とを区別し、アーキテクチャ、トレーニングパラダイム、推論メカニズムを含むVLAモデルの基礎をレビューする。
次に、攻撃、防衛、評価、展開の4つのレンズを通して文献を調べます。
データ中毒やバックドアなどのトレーニング時間の脅威や、敵のパッチ、モダル間の摂動、セマンティックジェイルブレイク、凍結攻撃などの推論時間攻撃を調査した。
トレーニング時間とランタイムのディフェンスをレビューし、既存のベンチマークとメトリクスを分析し、6つのデプロイメントドメインにわたる安全性上の課題について議論する。
最後に、具体化された軌道の堅牢性、物理的に実現可能な防御、安全に配慮したトレーニング、統一されたランタイムセーフティアーキテクチャ、標準化された評価など、主要なオープンな課題を強調します。
関連論文リスト
- Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - Trust in LLM-controlled Robotics: a Survey of Security Threats, Defenses and Challenges [31.289512037053246]
大きな言語モデル(LLM)は、複雑なヒューマンコマンドを解釈し、洗練されたタスクを実行する能力に革命をもたらした。
このようなパラダイムシフトは、'embodiment gap'から生じる重大なセキュリティ脆弱性を導入します。
本稿では,LLM制御ロボティクスにおける脅威の出現状況とそれに対応する防衛戦略を要約した体系的な調査を行う。
論文 参考訳(メタデータ) (2025-12-17T02:07:33Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - ANNIE: Be Careful of Your Robots [48.89876809734855]
エンボディドAIシステムに対する敵の安全攻撃に関する最初の体系的研究について述べる。
すべての安全カテゴリーで攻撃の成功率は50%を超えている。
結果は、実証済みのAIシステムにおいて、これまで未調査だったが、非常に連続的な攻撃面を露呈する。
論文 参考訳(メタデータ) (2025-09-03T15:00:28Z) - Attack and defense techniques in large language models: A survey and new perspectives [5.600972861188751]
大規模言語モデル(LLM)は多くの自然言語処理タスクの中心となっているが、その脆弱性はセキュリティと倫理的課題を呈している。
この体系的な調査は、LLMにおける攻撃と防御技術の進化の展望を探求する。
論文 参考訳(メタデータ) (2025-05-02T03:37:52Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。