論文の概要: MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation
- arxiv url: http://arxiv.org/abs/2602.11337v2
- Date: Thu, 19 Feb 2026 00:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.177275
- Title: MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation
- Title(参考訳): MolmoSpaces: ロボットナビゲーションと操作のための大規模オープンエコシステム
- Authors: Yejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna,
- Abstract要約: MolmoSpacesは、ロボットポリシーのベンチマークをサポートするための、完全にオープンなエコシステムである。
MolmoSpacesは230万以上の屋内環境で構成されている。
MolmoSpaces-Benchは8つのタスクのベンチマークスイートで、ロボットが私たちの多様なシーンとリッチな注釈付きオブジェクトと対話する。
- 参考スコア(独自算出の注目度): 56.30931340537373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying robots at scale demands robustness to the long tail of everyday situations. The countless variations in scene layout, object geometry, and task specifications that characterize real environments are vast and underrepresented in existing robot benchmarks. Measuring this level of generalization requires infrastructure at a scale and diversity that physical evaluation alone cannot provide. We introduce MolmoSpaces, a fully open ecosystem to support large-scale benchmarking of robot policies. MolmoSpaces consists of over 230k diverse indoor environments, ranging from handcrafted household scenes to procedurally generated multiroom houses, populated with 130k richly annotated object assets, including 48k manipulable objects with 42M stable grasps. Crucially, these environments are simulator-agnostic, supporting popular options such as MuJoCo, Isaac, and ManiSkill. The ecosystem supports the full spectrum of embodied tasks: static and mobile manipulation, navigation, and multiroom long-horizon tasks requiring coordinated perception, planning, and interaction across entire indoor environments. We also design MolmoSpaces-Bench, a benchmark suite of 8 tasks in which robots interact with our diverse scenes and richly annotated objects. Our experiments show MolmoSpaces-Bench exhibits strong sim-to-real correlation (R = 0.96, \r{ho} = 0.98), confirm newer and stronger zero-shot policies outperform earlier versions in our benchmarks, and identify key sensitivities to prompt phrasing, initial joint positions, and camera occlusion. Through MolmoSpaces and its open-source assets and tooling, we provide a foundation for scalable data generation, policy training, and benchmark creation for robot learning research.
- Abstract(参考訳): ロボットを大規模に展開するには、日々の状況の長い尾に頑丈さを必要とする。
実際の環境を特徴付けるシーンレイアウト、オブジェクト幾何学、タスク仕様の無数のバリエーションは、既存のロボットベンチマークでは広く、あまり表現されていない。
このレベルの一般化を測定するには、物理的評価だけでは提供できない規模のインフラと多様性が必要である。
ロボットポリシーの大規模ベンチマークをサポートする,完全にオープンなエコシステムであるMomoSpacesを紹介した。
モルモスペースは230万以上の屋内環境で構成されており、手作りの住宅シーンから、手続き的に生成された多ルームハウスまで、約130万件の注釈付きオブジェクト資産があり、42Mの安定なグリップを持つ48万件の操作可能なオブジェクトを含んでいる。
これらの環境はシミュレータに依存しないため、MuJoCo、Isaac、ManiSkillといった一般的なオプションをサポートしている。
このエコシステムは、静的およびモバイル操作、ナビゲーション、および屋内環境全体にわたって協調された知覚、計画、相互作用を必要とするマルチルームの長距離タスクという、すべての実施されたタスクをサポートする。
MolmoSpaces-Benchという8つのタスクのベンチマークスイートも設計しています。
実験の結果,M MolmoSpaces-Bench は強い sim-to-real 相関(R = 0.96, \r{ho} = 0.98)を示し,より新しい,より強力なゼロショットポリシーが我々のベンチマークの以前のバージョンより優れていることを確認した。
MolmoSpacesとそのオープンソース資産とツールを通じて、ロボット学習研究のためのスケーラブルなデータ生成、ポリシートレーニング、ベンチマーク作成の基礎を提供します。
関連論文リスト
- SceneSmith: Agentic Generation of Simulation-Ready Indoor Scenes [19.995619927680476]
SceneSmithは、建築レイアウトから天然家具の人口まで、環境を構築する。
SceneSmithは従来の方法よりも多くのオブジェクトを生成し、2%のオブジェクト間衝突と96%のオブジェクトは物理シミュレーションの下で安定している。
SceneSmith環境は、エンドツーエンドのパイプラインで、自動ポリシ評価に使用することができる。
論文 参考訳(メタデータ) (2026-02-09T19:56:04Z) - Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy [138.89177083578213]
空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。
InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。
結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
論文 参考訳(メタデータ) (2025-10-15T17:30:05Z) - Meta-Memory: Retrieving and Integrating Semantic-Spatial Memories for Robot Spatial Reasoning [5.740131013400576]
本稿では,環境の高密度メモリ表現を構築する,大規模言語モデル(LLM)駆動エージェントであるMeta-Memoryを提案する。
メタメモリの重要な革新は、意味論と空間的モダリティに関する共同推論を通じて関連する記憶を検索し、統合する能力にある。
実験の結果、Meta-MemoryはSpaceLocQAとパブリックなNaVQAベンチマークの両方で最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-09-25T05:22:52Z) - λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics [11.901933884058021]
本稿では,LAMBDA ベンチマーク-Long-Horizon Actions for Mobile-Manipulation Benchmarking of Directed Activityを紹介する。
私たちのベンチマークには、シミュレーションと実世界の設定において、現実性と多様性を提供する、571人の人間によるデモが含まれています。
予備訓練を受けた場合でも,学習方法は成功率を低く抑えるが,ニューロシンボリックな手法では性能が著しく向上し,データ量も少なくなる。
論文 参考訳(メタデータ) (2024-11-28T19:31:50Z) - M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes [66.44171200767839]
M3Benchは、モバイル操作タスクにおける全身の動き生成のための新しいベンチマークである。
M3Benchは、119の多様なシーンに3万のオブジェクト再構成タスクを備えている。
M3BenchとM3BenchMakerは、より適応的で有能なモバイル操作に向けたロボティクスの研究を進めることを目指している。
論文 参考訳(メタデータ) (2024-10-09T08:38:21Z) - Open-vocabulary Mobile Manipulation in Unseen Dynamic Environments with 3D Semantic Maps [16.083092305930844]
Open-Vocabulary Mobile Manipulation (OVMM)は、自律ロボットにとって重要な機能である。
ゼロショット検出とグラウンドド認識機能を活用した新しいフレームワークを提案する。
我々は,10-DoFモバイル操作ロボットプラットフォームJSR-1を構築し,実世界のロボット実験で実証した。
論文 参考訳(メタデータ) (2024-06-26T07:06:42Z) - RoboCasa: Large-Scale Simulation of Everyday Tasks for Generalist Robots [25.650235551519952]
本稿では,汎用ロボットを日常的に訓練するための大規模シミュレーションフレームワークであるRoboCasaを紹介する。
私たちは、150以上のオブジェクトカテゴリと数十の対話可能な家具とアプライアンスに対して、何千もの3Dアセットを提供しています。
本実験は, 大規模模倣学習のための合成ロボットデータを用いて, スケーリングの傾向を明らかにするものである。
論文 参考訳(メタデータ) (2024-06-04T17:41:31Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。