論文の概要: Eva-VLA: Evaluating Vision-Language-Action Models' Robustness Under Real-World Physical Variations
- arxiv url: http://arxiv.org/abs/2509.18953v1
- Date: Tue, 23 Sep 2025 13:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.848167
- Title: Eva-VLA: Evaluating Vision-Language-Action Models' Robustness Under Real-World Physical Variations
- Title(参考訳): Eva-VLA:実世界の物理的変動下における視覚・言語・行動モデルのロバストさの評価
- Authors: Hanqing Liu, Jiahuan Long, Junqi Wu, Jiacheng Hou, Huili Tang, Tingsong Jiang, Weien Zhou, Wen Yao,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なソリューションとして登場したが、現実世界の物理的変動に対する堅牢性は、いまだに過小評価されていない。
本稿では,離散的な物理変動を連続最適化問題に変換することで,VLAモデルのロバスト性を体系的に評価する最初の統一フレームワークであるEva-VLAを提案する。
Eva-VLAフレームワークは,VLAベースのロボット操作モデルを現実の展開課題に対して強化するための実用的な経路を提供する。
- 参考スコア(独自算出の注目度): 20.05530136820015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as promising solutions for robotic manipulation, yet their robustness to real-world physical variations remains critically underexplored. To bridge this gap, we propose Eva-VLA, the first unified framework that systematically evaluates the robustness of VLA models by transforming discrete physical variations into continuous optimization problems. However, comprehensively assessing VLA robustness presents two key challenges: (1) how to systematically characterize diverse physical variations encountered in real-world deployments while maintaining evaluation reproducibility, and (2) how to discover worst-case scenarios without prohibitive real-world data collection costs efficiently. To address the first challenge, we decompose real-world variations into three critical domains: object 3D transformations that affect spatial reasoning, illumination variations that challenge visual perception, and adversarial patches that disrupt scene understanding. For the second challenge, we introduce a continuous black-box optimization framework that transforms discrete physical variations into parameter optimization, enabling systematic exploration of worst-case scenarios. Extensive experiments on state-of-the-art OpenVLA models across multiple benchmarks reveal alarming vulnerabilities: all variation types trigger failure rates exceeding 60%, with object transformations causing up to 97.8% failure in long-horizon tasks. Our findings expose critical gaps between controlled laboratory success and unpredictable deployment readiness, while the Eva-VLA framework provides a practical pathway for hardening VLA-based robotic manipulation models against real-world deployment challenges.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なソリューションとして登場したが、現実世界の物理的変動に対する堅牢性は、いまだに過小評価されていない。
このギャップを埋めるために,離散的な物理変動を連続最適化問題に変換することで,VLAモデルのロバスト性を体系的に評価する最初の統一フレームワークであるEva-VLAを提案する。
しかしながら,VLAのロバスト性を総合的に評価することは,(1) 再現性を維持しつつ,実世界の展開で発生する多様な物理的変動を体系的に特徴づける方法,(2) 実世界のデータ収集を効果的に禁止せずに最悪のシナリオを発見する方法,の2つの課題を提示する。
最初の課題に対処するために、現実世界の変動を3つの重要な領域に分解する:空間的推論に影響を与えるオブジェクト3D変換、視覚的知覚に挑戦する照明変化、シーン理解を阻害する敵パッチ。
2つ目の課題として、離散的な物理変動をパラメータ最適化に変換する連続的なブラックボックス最適化フレームワークを導入し、最悪のシナリオの体系的な探索を可能にする。
複数のベンチマークにまたがる最先端のOpenVLAモデルに関する大規模な実験では、すべてのバリエーションタイプが障害率を60%を超え、オブジェクト変換が97.8%の障害を引き起こすという、重大な脆弱性が明らかになった。
Eva-VLAフレームワークは,VLAベースのロボット操作モデルを現実の展開課題に対して強化するための実用的な経路を提供する。
関連論文リスト
- ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Learning to Act Robustly with View-Invariant Latent Actions [8.446887947386559]
視覚に基づくロボットポリシーは、視界不変の視覚表現の必要性を強調し、小さな視点の変化に苦しむことが多い。
本研究では,ビュー不変遅延行動 (VILA) を提案する。これは,物理力学に基づくビュー不変表現を学習するために,トラジェクトリ間で遷移パターンをキャプチャする潜在動作をモデル化する。
シミュレーションと実世界の双方の実験から、VILAベースのポリシーは見当たらない視点に効果的に一般化し、新しいタスクにうまく移行することが示された。
論文 参考訳(メタデータ) (2026-01-06T13:14:01Z) - Deterministic World Models for Verification of Closed-loop Vision-based Systems [2.5051366017487715]
本稿では,システム状態を直接生成画像にマッピングし,正確な入力境界を確保するための決定論的世界モデル(DWM)を提案する。
我々はDWMをStar-based reachability analysis(StarV)を利用した検証パイプラインに統合し、厳密な統計的境界を導出するために共形予測を用いる。
標準ベンチマーク実験により,提案手法は潜在変数ベースラインよりもはるかに密着性が高く,検証性能も良好であることが示された。
論文 参考訳(メタデータ) (2025-12-08T02:32:07Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - Universal Camouflage Attack on Vision-Language Models for Autonomous Driving [67.34987318443761]
自動運転のためのビジュアル言語モデリングが、有望な研究方向として浮上している。
VLM-ADは、敵の攻撃による深刻なセキュリティ脅威に弱いままである。
VLM-ADのための最初のユニバーサルカモフラージュ攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-24T14:52:01Z) - BEVUDA++: Geometric-aware Unsupervised Domain Adaptation for Multi-View 3D Object Detection [56.477525075806966]
視覚中心のBird's Eye View (BEV) の認識は、自律運転にかなりの可能性を秘めている。
近年の研究では、効率性や精度の向上が優先されているが、ドメインシフトの問題は見過ごされている。
本稿では,この問題を解消するために,革新的な幾何学的学習支援フレームワークであるBEVUDA++を紹介する。
論文 参考訳(メタデータ) (2025-09-17T16:31:40Z) - Unveiling the Lack of LVLM Robustness to Fundamental Visual Variations: Why and Path Forward [1.7971686967440696]
V$2$R-Benchは、LVLMの視覚変化ロバスト性を評価するためのベンチマークフレームワークである。
本研究では,複雑な視覚言語タスクに優れた高度なモデルが,オブジェクト認識などの単純なタスクでは著しく性能が劣っていることを示す。
これらの脆弱性は、パイプラインアーキテクチャにおけるエラーの蓄積と、マルチモーダルアライメントの不十分に起因する。
論文 参考訳(メタデータ) (2025-04-23T14:01:32Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - Omniview-Tuning: Boosting Viewpoint Invariance of Vision-Language Pre-training Models [32.83187649097727]
100万以上のオブジェクトに対して400万以上のマルチビューイメージテキストペアのデータセットを構築します。
我々はOmniview-Tuning(OVT)と呼ばれる新しい微調整フレームワークを設計する。
OVTは、ミニマックスのような最適化戦略を通じて、クロスポイントアライメントの目標を導入する。
論文 参考訳(メタデータ) (2024-04-18T12:41:33Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。