Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms
Abstractの概要
本論文は、視覚認識・言語理解・行動生成を身体性ロボティクスのために統合するVision-Language-Action(VLA)モデルの安全性に関するサーベイを提示している。VLAの安全性は、行動が不可逆的な物理的結果をもたらすこと、攻撃対象面が複数のモダリティ(視覚・言語・固有受容状態)にまたがること、防御がリアルタイムのレイテンシ制約下で動作する必要があること、長期的な軌道にわたってエラーが蓄積しうることから、テキストのみのLLM安全性や古典的なロボティクス安全性とは異なると主張している。本サーベイは、攻撃タイミング(訓練時 vs. 推論時)と防御タイミング(訓練時 vs. 推論時)という2つの並行する時間軸に沿って先行研究を整理し、訓練時攻撃(データポイズニング、バックドア)、推論時攻撃(敵対的パッチ、ジェイルブレイク、物理的介入)、対応する防御手法、評価ベンチマークと指標、6つの実世界ドメインにおける展開上の課題をレビューしている。また、安全性の議論を基礎づけるために、代表的なVLAシステム、形式的な問題定式化、アーキテクチャ構成要素、訓練パラダイム、推論メカニズムに関する背景も提供している。
新規性
本論文は、VLA安全性に特化した初の包括的サーベイであると自ら位置づけている。その独自の貢献は、攻撃時間軸と防御時間軸の並行軸に沿って組織化された構造的分類法であり、脅威・緩和策・評価プロトコル・展開上の考慮事項を単一のフレームワーク内で体系的に結びつけ、ロボット学習・敵対的機械学習・AIアライメント・自律システム安全性にまたがるこれまで断片化されていた文献を橋渡ししている点にある。
成果
サーベイとして、本論文の主な成果は新たな実験結果ではなく、VLA安全性の全体像の統合的なマッピングである。訓練時の脅威(BadVLA、DropVLA、SilentDriftなどのバックドア攻撃)や推論時攻撃(RoboPAIRによる最大100%の攻撃成功率を達成するセマンティックジェイルブレイクなど)を統合し、制約付き安全性アライメント(SafeVLA)、ヒューマン・イン・ザ・ループ改良(APO、Hi-ORS)、デュアルループランタイムアーキテクチャにわたる防御手法をカタログ化し、身体性軌道に対する認証済みロバスト性、物理的に実現可能な防御、標準化された評価を含むオープンプロブレムを特定している。
論文の注目点
- 本サーベイは、VLA安全性を視覚・言語・固有受容状態・行動の脆弱性を伴う身体性マルチモーダル問題として位置づけ、プロンプトレベルのLLMアライメントとは区別し、クロスモーダルアライメント・物理的トリガー・時間的行動チャンキング・状態空間ポイズニングを悪用する具体的な攻撃手法(BadVLA、DropVLA、GoBA、SilentDriftなど)を文書化している。
- 訓練時および推論時の攻撃と対応する訓練時および推論時の防御を結びつける統一的な分類法を提案し、身体性軌道に対する認証済みロバスト性手法の欠如や統一的なランタイム安全性アーキテクチャの不在といったカバレッジギャップを特定している。
- 16以上の安全性ベンチマークと複数の指標カテゴリ(タスクレベル、行動、ロバスト性、複合)をレビューし、現行のVLAモデルが危険な指示に対する拒否率がわずか10%程度であることや、体系的な摂動テスト下での平均成功率が13%未満であることなどの重大な弱点を示していることを明らかにしている。