論文の概要: MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation
- arxiv url: http://arxiv.org/abs/2602.11337v2
- Date: Thu, 19 Feb 2026 00:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.177275
- Title: MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation
- Title(参考訳): MolmoSpaces: ロボットナビゲーションと操作のための大規模オープンエコシステム
- Authors: Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna,
- Abstract要約: MolmoSpacesは、ロボットポリシーのベンチマークをサポートするための、完全にオープンなエコシステムである。
MolmoSpacesは230万以上の屋内環境で構成されている。
MolmoSpaces-Benchは8つのタスクのベンチマークスイートで、ロボットが私たちの多様なシーンとリッチな注釈付きオブジェクトと対話する。
- 参考スコア(独自算出の注目度): 56.30931340537373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, \r{ho} = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.
- Abstract(参考訳): ロボットを大規模に展開するには、日々の状況の長い尾に頑丈さを必要とする。
実際の環境を特徴付けるシーンレイアウト、オブジェクト幾何学、タスク仕様の無数のバリエーションは、既存のロボットベンチマークでは広く、あまり表現されていない。
このレベルの一般化を測定するには、物理的評価だけでは提供できない規模のインフラと多様性が必要である。
ロボットポリシーの大規模ベンチマークをサポートする,完全にオープンなエコシステムであるMomoSpacesを紹介した。
モルモスペースは230万以上の屋内環境で構成されており、手作りの住宅シーンから、手続き的に生成された多ルームハウスまで、約130万件の注釈付きオブジェクト資産があり、42Mの安定なグリップを持つ48万件の操作可能なオブジェクトを含んでいる。
これらの環境はシミュレータに依存しないため、MuJoCo、Isaac、ManiSkillといった一般的なオプションをサポートしている。
このエコシステムは、静的およびモバイル操作、ナビゲーション、および屋内環境全体にわたって協調された知覚、計画、相互作用を必要とするマルチルームの長距離タスクという、すべての実施されたタスクをサポートする。
MolmoSpaces-Benchという8つのタスクのベンチマークスイートも設計しています。
実験の結果,M MolmoSpaces-Bench は強い sim-to-real 相関(R = 0.96, \r{ho} = 0.98)を示し,より新しい,より強力なゼロショットポリシーが我々のベンチマークの以前のバージョンより優れていることを確認した。
MolmoSpacesとそのオープンソース資産とツールを通じて、ロボット学習研究のためのスケーラブルなデータ生成、ポリシートレーニング、ベンチマーク作成の基礎を提供します。
関連論文リスト
- SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes [19.995619927680476]
SceneSmithは、建築レイアウトから天然家具の人口まで、環境を構築する。
SceneSmithは従来の方法よりも多くのオブジェクトを生成し、2%のオブジェクト間衝突と96%のオブジェクトは物理シミュレーションの下で安定している。
SceneSmith環境は、エンドツーエンドのパイプラインで、自動ポリシ評価に使用することができる。
論文 参考訳(メタデータ) (2026-02-09T19:56:04Z) - InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy [138.89177083578213]
空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。
InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。
結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
論文 参考訳(メタデータ) (2025-10-15T17:30:05Z) - λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics [11.901933884058021]
本稿では,LAMBDA ベンチマーク-Long-Horizon Actions for Mobile-Manipulation Benchmarking of Directed Activityを紹介する。
私たちのベンチマークには、シミュレーションと実世界の設定において、現実性と多様性を提供する、571人の人間によるデモが含まれています。
予備訓練を受けた場合でも,学習方法は成功率を低く抑えるが,ニューロシンボリックな手法では性能が著しく向上し,データ量も少なくなる。
論文 参考訳(メタデータ) (2024-11-28T19:31:50Z) - M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes [66.44171200767839]
M3Benchは、モバイル操作タスクにおける全身の動き生成のための新しいベンチマークである。
M3Benchは、119の多様なシーンに3万のオブジェクト再構成タスクを備えている。
M3BenchとM3BenchMakerは、より適応的で有能なモバイル操作に向けたロボティクスの研究を進めることを目指している。
論文 参考訳(メタデータ) (2024-10-09T08:38:21Z) - RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots [25.650235551519952]
本稿では,汎用ロボットを日常的に訓練するための大規模シミュレーションフレームワークであるRoboCasaを紹介する。
私たちは、150以上のオブジェクトカテゴリと数十の対話可能な家具とアプライアンスに対して、何千もの3Dアセットを提供しています。
本実験は, 大規模模倣学習のための合成ロボットデータを用いて, スケーリングの傾向を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-04T17:41:31Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。