論文の概要: MobileManiBench: Simplifying Model Verification for Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2602.05233v1
- Date: Thu, 05 Feb 2026 02:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.189853
- Title: MobileManiBench: Simplifying Model Verification for Mobile Manipulation
- Title(参考訳): MobileManiBench: モバイル操作のためのモデル検証の簡略化
- Authors: Wenbo Wang, Fangyun Wei, QiXiu Li, Xi Chen, Yaobo Liang, Chang Xu, Jiaolong Yang, Baining Guo,
- Abstract要約: MobileManiBenchは、モバイルベースのロボット操作のための大規模なベンチマークである。
MobileManiBenchには、2つのモバイルプラットフォーム(パラレルグリッパーとデキソラスハンドロボット)、2つの同期カメラ(頭と右手首)、630のオブジェクト(オープン、クローズ、プル、プッシュ、ピック)、5つのスキル(オープン、クローズ、プッシュ、ピック)、100以上のタスクが現実的なシーンで実行される。
- 参考スコア(独自算出の注目度): 70.30578259859512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action models have advanced robotic manipulation but remain constrained by reliance on the large, teleoperation-collected datasets dominated by the static, tabletop scenes. We propose a simulation-first framework to verify VLA architectures before real-world deployment and introduce MobileManiBench, a large-scale benchmark for mobile-based robotic manipulation. Built on NVIDIA Isaac Sim and powered by reinforcement learning, our pipeline autonomously generates diverse manipulation trajectories with rich annotations (language instructions, multi-view RGB-depth-segmentation images, synchronized object/robot states and actions). MobileManiBench features 2 mobile platforms (parallel-gripper and dexterous-hand robots), 2 synchronized cameras (head and right wrist), 630 objects in 20 categories, 5 skills (open, close, pull, push, pick) with over 100 tasks performed in 100 realistic scenes, yielding 300K trajectories. This design enables controlled, scalable studies of robot embodiments, sensing modalities, and policy architectures, accelerating research on data efficiency and generalization. We benchmark representative VLA models and report insights into perception, reasoning, and control in complex simulated environments.
- Abstract(参考訳): 視覚言語アクションモデルには高度なロボット操作があるが、静的なテーブルトップシーンが支配する大規模な遠隔操作によるデータセットに依存している。
実世界の展開前にVLAアーキテクチャを検証するためのシミュレーションファーストフレームワークを提案し,モバイルベースのロボット操作のための大規模ベンチマークであるMobileManiBenchを紹介した。
NVIDIA Isaac Simをベースに構築され、強化学習によって、私たちのパイプラインは、リッチアノテーション(言語命令、多視点RGB-deepth-segmentationイメージ、同期オブジェクト/ロボット状態、アクション)による多様な操作トラジェクトリを自律的に生成します。
MobileManiBenchには、2つのモバイルプラットフォーム(パラレルグリッパーとデキソラスハンドロボット)、2つの同期カメラ(頭と右手首)、630のオブジェクト(オープン、クローズ、プル、プッシュ、ピック)、5つのスキル(オープン、クローズ、プッシュ、ピック)、100以上のタスクが現実的なシーンで実行される。
この設計により、制御されたスケーラブルなロボットエボディメントの研究、モダリティのセンシング、ポリシーアーキテクチャ、データ効率と一般化の研究を加速することができる。
我々は,VLAモデルをベンチマークし,複雑なシミュレーション環境での知覚,推論,制御に関する知見を報告する。
関連論文リスト
- FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset [55.66606167502093]
我々は,大規模なUMIスタイルのマルチモーダルデモデータセットであるFastUMI-100Kを提案する。
FastUMI-100Kは、現実世界のロボットデモデータの多様な要求を満たすために、よりスケーラブルで柔軟性があり、適応可能なソリューションを提供する。
我々のデータセットは、エンドエフェクタ状態、多視点手首装着魚眼画像、テキストアノテーションを含むマルチモーダルストリームを統合している。
論文 参考訳(メタデータ) (2025-10-09T09:57:25Z) - RoboPearls: Editable Video Simulation for Robot Manipulation [81.18434338506621]
RoboPearlsは、ロボット操作のための編集可能なビデオシミュレーションフレームワークである。
3D Gaussian Splatting (3DGS)に基づいて構築されたRoboPearlsは、フォトリアリスティックでビュー一貫性のあるシミュレーションの構築を可能にする。
我々は、RLBench、COLOSSEUM、Ego4D、Open X-Embodiment、現実世界のロボットなど、複数のデータセットやシーンで広範な実験を行う。
論文 参考訳(メタデータ) (2025-06-28T05:03:31Z) - λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics [11.901933884058021]
本稿では,LAMBDA ベンチマーク-Long-Horizon Actions for Mobile-Manipulation Benchmarking of Directed Activityを紹介する。
私たちのベンチマークには、シミュレーションと実世界の設定において、現実性と多様性を提供する、571人の人間によるデモが含まれています。
予備訓練を受けた場合でも,学習方法は成功率を低く抑えるが,ニューロシンボリックな手法では性能が著しく向上し,データ量も少なくなる。
論文 参考訳(メタデータ) (2024-11-28T19:31:50Z) - M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes [66.44171200767839]
M3Benchは、モバイル操作タスクにおける全身の動き生成のための新しいベンチマークである。
M3Benchは、119の多様なシーンに3万のオブジェクト再構成タスクを備えている。
M3BenchとM3BenchMakerは、より適応的で有能なモバイル操作に向けたロボティクスの研究を進めることを目指している。
論文 参考訳(メタデータ) (2024-10-09T08:38:21Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。