論文の概要: Partially Observable Adversarial Patch Attacks on Vision-Language-Action Models in Robotics
- arxiv url: http://arxiv.org/abs/2606.03556v1
- Date: Tue, 02 Jun 2026 12:19:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.989262
- Title: Partially Observable Adversarial Patch Attacks on Vision-Language-Action Models in Robotics
- Title(参考訳): ロボットの視覚・言語・行動モデルに対する部分的に観測可能な逆パッチ攻撃
- Authors: Xiaofei Wang, Mingliang Han, Tianyu Hao, Yi Yang, Yun-Bo Zhao, Keke Tang,
- Abstract要約: ヴィジュアル・ランゲージ・アクション(VLA)モデルはロボット工学において注目を集めているが、敵の攻撃に対するロバスト性はほとんど解明されていない。
部分的に観測可能な脅威モデルを定式化し、敵は軌跡の短いプレフィックスのみを利用でき、その後の全てのフレームに適用する固定パッチを生成する。
まず、モデルの注意マップを用いてパッチをローカライズし、フルインストラクションに対応する視覚的に重要な領域を特定する。
次に,対象対象物のセマンティックグラウンドを乱すパッチを最適化し,動作軌跡の曲率を増加させる。
- 参考スコア(独自算出の注目度): 21.834006622805678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) models are gaining attention in robotics, yet their robustness to adversarial attacks remains largely unexplored. Existing work shows that adversarial patches can mislead VLA-based robots but assumes full access to the entire execution trajectory, an unrealistic requirement in practice. We address this limitation by formulating a partially observable threat model, where the adversary can exploit only a short prefix of the trajectory to generate a fixed patch applied to all subsequent frames. Under this setting, we propose a two-phase framework. First, we localize the patch using the model's attention maps to identify visually critical regions that correspond to the full instruction. Then, we optimize the patch to disrupt the semantic grounding of target objects and increase the curvature of action trajectories, thereby compounding failures in both perception and control. Extensive experiments in simulation and real-world robotic environments show that our method sustains adversarial effects under partial observability, inducing long-horizon disruptions and significantly reducing task success rates.
- Abstract(参考訳): ヴィジュアル・ランゲージ・アクション(VLA)モデルはロボット工学において注目を集めているが、敵の攻撃に対するロバスト性はほとんど解明されていない。
既存の研究によると、対向パッチはVLAベースのロボットを誤解させる可能性があるが、実際には非現実的な要求である実行軌跡全体への完全なアクセスを前提としている。
この制限は、部分的に観測可能な脅威モデルを定式化し、敵は軌跡の短いプレフィックスのみを利用でき、その後の全てのフレームに適用する固定パッチを生成する。
そこで本研究では,2段階の枠組みを提案する。
まず、モデルの注意マップを用いてパッチをローカライズし、フルインストラクションに対応する視覚的に重要な領域を特定する。
そして,対象対象物のセマンティックグラウンドを乱すパッチを最適化し,動作軌跡の曲率を高めることにより,知覚と制御の両面での障害を複雑化する。
シミュレーションおよび実世界のロボット環境における広範囲な実験により,本手法は部分観測可能性下での逆効果を持続し,長期破壊を誘発し,タスク成功率を著しく低下させることが示された。
関連論文リスト
- When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models [81.7618160628979]
VLA(Vision-Language-Action)モデルは敵の攻撃に弱いが、普遍的かつ移動可能な攻撃は未発見のままである。
UPA-RFAS(Universal Patch Attack via Robust Feature, Attention, and Semantics)は、単一の物理的パッチを共有機能空間で学習する統合フレームワークである。
多様なVLAモデル、操作スイート、物理実行の実験は、UPA-RFASがモデル、タスク、視点を一貫して移行していることを示している。
論文 参考訳(メタデータ) (2025-11-26T09:16:32Z) - Model-agnostic Adversarial Attack and Defense for Vision-Language-Action Models [25.45513133247862]
VLA(Vision-Language-Action)モデルは、ロボット学習において革命的な進歩を遂げている。
この進歩にもかかわらず、その敵意の強固さは未解明のままである。
本稿では,VLAモデルに対する敵パッチ攻撃と対応する防御戦略の両方を提案する。
論文 参考訳(メタデータ) (2025-10-15T07:42:44Z) - NoTVLA: Narrowing of Dense Action Trajectories for Generalizable Robot Manipulation [54.87964060934928]
VLA(Vision-Language-Action)モデルは、現実の展開において重要な障壁に直面している。
本稿では,軌道の狭小化に焦点を絞った新しい手法として,軌道の狭小化(Narrowing of Trajectory)VLAフレームワークを提案する。
NoTVLAは2つのクリティカルな制約の下で動作しながら、pi0よりも優れたパフォーマンスと一般化を実現している。
論文 参考訳(メタデータ) (2025-10-04T18:26:55Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。