論文の概要: RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation
- arxiv url: http://arxiv.org/abs/2602.10980v1
- Date: Wed, 11 Feb 2026 16:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.370022
- Title: RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation
- Title(参考訳): RADAR: 実世界のダイナミクス、空間物理知能、自律的評価によるビジョン・ランゲージ・アクションの一般化のベンチマーク
- Authors: Yuhao Chen, Zhihao Zhan, Xiaoxin Lin, Zijian Song, Hao Liu, Qinhan Lyu, Yubo Zu, Xiao Chen, Zhiyuan Liu, Tao Pu, Tianshui Chen, Keze Wang, Liang Lin, Guangrun Wang,
- Abstract要約: 本稿では,現実的な条件下でのVLA一般化を体系的に評価するベンチマークであるRADARを紹介する。
RADARを用いて、複数の最先端のVLAモデルを監査し、その明らかな能力の下で深刻な脆弱性を明らかにする。
- 参考スコア(独自算出の注目度): 76.22852262683746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: VLA models have achieved remarkable progress in embodied intelligence; however, their evaluation remains largely confined to simulations or highly constrained real-world settings. This mismatch creates a substantial reality gap, where strong benchmark performance often masks poor generalization in diverse physical environments. We identify three systemic shortcomings in current benchmarking practices that hinder fair and reliable model comparison. (1) Existing benchmarks fail to model real-world dynamics, overlooking critical factors such as dynamic object configurations, robot initial states, lighting changes, and sensor noise. (2) Current protocols neglect spatial--physical intelligence, reducing evaluation to rote manipulation tasks that do not probe geometric reasoning. (3) The field lacks scalable fully autonomous evaluation, instead relying on simplistic 2D metrics that miss 3D spatial structure or on human-in-the-loop systems that are costly, biased, and unscalable. To address these limitations, we introduce RADAR (Real-world Autonomous Dynamics And Reasoning), a benchmark designed to systematically evaluate VLA generalization under realistic conditions. RADAR integrates three core components: (1) a principled suite of physical dynamics; (2) dedicated tasks that explicitly test spatial reasoning and physical understanding; and (3) a fully autonomous evaluation pipeline based on 3D metrics, eliminating the need for human supervision. We apply RADAR to audit multiple state-of-the-art VLA models and uncover severe fragility beneath their apparent competence. Performance drops precipitously under modest physical dynamics, with the expectation of 3D IoU declining from 0.261 to 0.068 under sensor noise. Moreover, models exhibit limited spatial reasoning capability. These findings position RADAR as a necessary bench toward reliable and generalizable real-world evaluation of VLA models.
- Abstract(参考訳): VLAモデルはインテリジェンスにおいて顕著な進歩を遂げているが、その評価はシミュレーションや現実世界の設定に限られている。
このミスマッチは、強力なベンチマークパフォーマンスが様々な物理環境における一般化の悪さを隠蔽する、実質的な現実のギャップを生じさせる。
公正で信頼性の高いモデル比較を妨げる、現在のベンチマークプラクティスにおける3つのシステム的欠点を特定します。
1)既存のベンチマークでは,オブジェクトの動的構成,ロボットの初期状態,照明変化,センサノイズといった重要な要因を克服し,実世界のダイナミクスのモデル化に失敗する。
2)現在のプロトコルは空間物理知能を無視し,幾何学的推論を探索しない操作タスクに対する評価を低減している。
3) 現場はスケーラブルで完全自律的な評価に欠けており、代わりに3次元空間構造を欠く単純化された2Dメトリクスや、費用がかかり、偏りがあり、計算不可能なループシステムに依存している。
これらの制約に対処するために,現実的な条件下でのVLA一般化を体系的に評価するためのベンチマークであるRADAR(Real-world Autonomous Dynamics and Reasoning)を導入する。
RADARは,(1)物理力学の原理的スイート,(2)空間的推論と物理的理解を明示的にテストする専用タスク,(3)3次元計測に基づく完全自律的評価パイプラインの3つのコアコンポーネントを統合し,人間の監督の必要性を排除した。
RADARを用いて、複数の最先端のVLAモデルを監査し、その明らかな能力の下で深刻な脆弱性を明らかにする。
3D IoU は 0.261 から 0.068 に低下した。
さらに、モデルは限られた空間的推論能力を示す。
これらの結果から, RADAR は VLA モデルの信頼性, 一般化可能な実世界評価に必要となるベンチとして位置づけられた。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation [46.970355660265284]
VLA(Vision-Language-Action)モデルは、自然言語で記述されたタスクをロボットが理解し実行できるようにするモデルである。
重要な課題は、訓練された特定の環境や条件を超えて一般化できることです。
本稿では,VLAモデルの一般化能力を評価するための新しいシミュレーション環境とベンチマークであるREALMを提案する。
論文 参考訳(メタデータ) (2025-12-22T16:44:23Z) - Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - A Comprehensive Survey on World Models for Embodied AI [14.457261562275121]
エンボディードAIは、アクションがどのように将来の世界国家を形作るかを理解し、行動し、予測するエージェントを必要とする。
この調査は、組み込みAIにおける世界モデルのための統一されたフレームワークを示す。
論文 参考訳(メタデータ) (2025-10-19T07:12:32Z) - Scalable Benchmarking and Robust Learning for Noise-Free Ego-Motion and 3D Reconstruction from Noisy Video [30.89206445146674]
ノイズフリーデータへの依存という限界に対処することで、ロバストなエゴモーション推定とフォトリアリスティックな3D再構成を再定義することを目指している。
スケーラブルなデータ生成、包括的な堅牢性、モデルの強化という3つの課題に取り組んでいます。
Robust-Ego3Dという,ノイズによるパフォーマンス劣化の顕在化を目的としたベンチマークを作成しました。
論文 参考訳(メタデータ) (2025-01-24T08:25:48Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。