論文の概要: ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation
- arxiv url: http://arxiv.org/abs/2603.28545v1
- Date: Mon, 30 Mar 2026 15:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.464011
- Title: ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation
- Title(参考訳): ManipArena: Reasoning-Oriented Generalist Robot Manipulationの総合的実世界評価
- Authors: Yu Sun, Meng Cao, Ping Yang, Rongtao Xu, Yunxiao Yan, Runze Xu, Liang Ma, Roy Gan, Andy Zhai, Qingxuan Chen, Zunnan Xu, Hao Wang, Jincheng Yu, Lucy Liang, Qian Wang, Ivan Laptev, Ian D Reid, Xiaodan Liang,
- Abstract要約: Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。
シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
- 参考スコア(独自算出の注目度): 66.02142169323521
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models and world models have recently emerged as promising paradigms for general-purpose robotic intelligence, yet their progress is hindered by the lack of reliable evaluation protocols that reflect real-world deployment. Existing benchmarks are largely simulator-centric, which provide controllability but fail to capture the reality gap caused by perception noise, complex contact dynamics, hardware constraints, and system latency. Moreover, fragmented real-world evaluations across different robot platforms prevent fair and reproducible comparison. To address these challenges, we introduce ManipArena, a standardized evaluation framework designed to bridge simulation and real-world execution. ManipArena comprises 20 diverse tasks across 10,812 expert trajectories emphasizing reasoning-oriented manipulation tasks requiring semantic and spatial reasoning, supports multi-level generalization through controlled out-of-distribution settings, and incorporates long-horizon mobile manipulation beyond tabletop scenarios. The framework further provides rich sensory diagnostics, including low-level motor signals, and synchronized real-to-sim environments constructed via high-quality 3D scanning. Together, these features enable fair, realistic, and reproducible evaluation for both VLA and world model approaches, providing a scalable foundation for diagnosing and advancing embodied intelligence systems.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルと世界モデルは先日,汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。
既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズ、複雑なコンタクトダイナミクス、ハードウェア制約、システム遅延によって生じる現実的なギャップを捉えることができない。
さらに、異なるロボットプラットフォーム間での断片化された実世界の評価は、公正かつ再現可能な比較を妨げる。
これらの課題に対処するために,シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介した。
ManipArenaは、セマンティックな推論と空間的推論を必要とする推論指向の操作タスクを強調した10,812のエキスパート軌道にまたがる20の多様なタスクで構成され、制御されたアウト・オブ・ディストリビューション・セッティングを通じて多段階の一般化をサポートし、テーブルトップシナリオを超えた長い水平移動操作を組み込んでいる。
このフレームワークはさらに、低レベルのモーター信号や、高品質な3Dスキャンによって構築された同期されたリアルタイム環境を含む、リッチな感覚診断を提供する。
これらの機能は、VLAとワールドモデルの両方のアプローチに対して公平で現実的で再現可能な評価を可能にし、エンボディドインテリジェンスシステムの診断と進歩のためのスケーラブルな基盤を提供する。
関連論文リスト
- World Reasoning Arena [36.28720055069025]
WR-Arenaは、次世代シミュレーションの3つの基本的な次元に沿って世界モデルを評価するためのベンチマークである。
タスク分類を構築し、これらの能力を調査するために設計された多様なデータセットをキュレートします。
その結果、現在のモデルと人間レベルの仮説的推論との間には大きなギャップがあることがわかった。
論文 参考訳(メタデータ) (2026-03-26T20:22:52Z) - RADAR: Benchmarking Vision-Language-Action Generalization via Real-World Dynamics, Spatial-Physical Intelligence, and Autonomous Evaluation [76.22852262683746]
本稿では,現実的な条件下でのVLA一般化を体系的に評価するベンチマークであるRADARを紹介する。
RADARを用いて、複数の最先端のVLAモデルを監査し、その明らかな能力の下で深刻な脆弱性を明らかにする。
論文 参考訳(メタデータ) (2026-02-11T16:08:30Z) - REALM: A Real-to-Sim Validated Benchmark for Generalization in Robotic Manipulation [46.970355660265284]
VLA(Vision-Language-Action)モデルは、自然言語で記述されたタスクをロボットが理解し実行できるようにするモデルである。
重要な課題は、訓練された特定の環境や条件を超えて一般化できることです。
本稿では,VLAモデルの一般化能力を評価するための新しいシミュレーション環境とベンチマークであるREALMを提案する。
論文 参考訳(メタデータ) (2025-12-22T16:44:23Z) - PolaRiS: Scalable Real-to-Sim Evaluations for Generalist Robot Policies [88.78188489161028]
シミュレーションにおける政策評価と環境復元(PolaRiS)の導入
PolaRiSは、高忠実度シミュレーションロボット評価のためのスケーラブルなリアルタイム・シミュレート・フレームワークである。
PolaRiSの評価は,既存のシミュレーションベンチマークよりも,現実のジェネラリストのポリシー性能に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2025-12-18T18:49:41Z) - SimScale: Learning to Drive via Real-World Simulation at Scale [45.08991279559151]
本稿では,既存の運転ログ上に巨大な未確認状態を合成可能な,新規でスケーラブルなシミュレーションフレームワークを提案する。
我々のパイプラインは、高度なニューラルレンダリングとリアクティブ環境を利用して、高忠実度マルチビュー観測を生成する。
我々は、これらの新しいシミュレーション状態に対する擬似経験的軌跡生成機構を開発し、行動監視を行う。
論文 参考訳(メタデータ) (2025-11-28T17:17:38Z) - RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation [47.79800816696372]
操作ポリシーの現実的なテストは、大規模に労働集約的で、再現が難しい。
既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストしている。
本稿では,VLA評価を大規模にシミュレーションした拡張環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T17:41:38Z) - HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions [64.69468932145234]
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。