論文の概要: RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied Intelligence
- arxiv url: http://arxiv.org/abs/2512.24653v3
- Date: Fri, 27 Feb 2026 09:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.5846
- Title: RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied Intelligence
- Title(参考訳): RoboMIND 2.0: 汎用的身体情報のためのマルチモーダル双方向移動操作データセット
- Authors: Chengkai Hou, Kun Wu, Jiaming Liu, Zhengping Che, Di Wu, Fei Liao, Guangrun Li, Jingyang He, Qiuxuan Feng, Zhao Jin, Chenyang Gu, Zhuoyang Liu, Nuowei Han, Xiangju Mi, Yaoxu Lv, Yankai Fu, Gaole Dai, Langzhe Gu, Tao Li, Yuheng Zhang, Yixue Zhang, Xinhua Wang, Shichao Fan, Meng Li, Zhen Zhao, Ning Liu, Zhiyuan Xu, Pei Ren, Junjie Ji, Haonan Liu, Kuan Cheng, Shanghang Zhang, Jian Tang,
- Abstract要約: 本稿では,RoboMIND 2.0について紹介する。これは310K以上のデュアルアーム操作トラジェクトリからなる,総合的な実世界のデータセットである。
コンタクトリッチで空間的に拡張されたタスクの研究を支援するため、データセットには12Kの触覚強調エピソードと20Kの移動操作トラジェクトリが組み込まれている。
RoboMIND 2.0の可能性をフル活用するために、オフライン強化学習により最適化された階層型デュアルシステムフレームワークであるMIND-2システムを提案する。
- 参考スコア(独自算出の注目度): 59.39508501733987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While data-driven imitation learning has revolutionized robotic manipulation, current approaches remain constrained by the scarcity of large-scale, diverse real-world demonstrations. Consequently, the ability of existing models to generalize across long-horizon bimanual tasks and mobile manipulation in unstructured environments remains limited. To bridge this gap, we present RoboMIND 2.0, a comprehensive real-world dataset comprising over 310K dual-arm manipulation trajectories collected across six distinct robot embodiments and 739 complex tasks. Crucially, to support research in contact-rich and spatially extended tasks, the dataset incorporates 12K tactile-enhanced episodes and 20K mobile manipulation trajectories. Complementing this physical data, we construct high-fidelity digital twins of our real-world environments, releasing an additional 20K-trajectory simulated dataset to facilitate robust sim-to-real transfer. To fully exploit the potential of RoboMIND 2.0, we propose MIND-2 system, a hierarchical dual-system frame-work optimized via offline reinforcement learning. MIND-2 integrates a high-level semantic planner (MIND-2-VLM) to decompose abstract natural language instructions into grounded subgoals, coupled with a low-level Vision-Language-Action executor (MIND-2-VLA), which generates precise, proprioception-aware motor actions.
- Abstract(参考訳): データ駆動の模倣学習はロボット操作に革命をもたらしたが、現在のアプローチは、大規模で多様な実世界のデモの不足によって制約を受け続けている。
その結果,非構造環境において,長期のバイマンタスクや移動操作にまたがる既存モデルを一般化する能力は依然として限られている。
このギャップを埋めるために、RoboMIND 2.0を提案する。RoboMIND 2.0は、6つの異なるロボットエンボディメントと739の複雑なタスクで収集された310K以上のデュアルアーム操作トラジェクトリからなる、包括的な実世界のデータセットである。
重要なことに、コンタクトリッチで空間的に拡張されたタスクの研究を支援するために、データセットには12Kの触覚強調エピソードと20Kの移動操作トラジェクトリが組み込まれている。
この物理データを補完し、実世界の高忠実なデジタル双対を構築し、堅牢なsim-to-real転送を容易にする20K軌道シミュレーションデータセットを新たにリリースします。
RoboMIND 2.0の可能性をフル活用するために、オフライン強化学習により最適化された階層型デュアルシステムフレームワークであるMIND-2システムを提案する。
MIND-2は高レベルのセマンティックプランナー (MIND-2-VLM) を統合し、抽象的な自然言語命令を接地したサブゴールに分解し、低レベルなVision-Language-Action executor (MIND-2-VLA) と組み合わせて、精密でプロプリセプション対応のモーターアクションを生成する。
関連論文リスト
- UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data [70.96218513410454]
両面ロボットを用いた普遍的デクスタラスグリップのためのフレームワークであるUltraDexGraspを紹介する。
提案したデータ生成パイプラインは、最適化に基づくグリップ合成と計画に基づくデモ生成を統合する。
我々はUltraDexGrasp-20Mに基づいて、点雲を入力とし、一方向の注意を通してシーン特徴を集約し、制御コマンドを予測する、シンプルで効果的な把握ポリシーを開発した。
論文 参考訳(メタデータ) (2026-03-05T15:54:21Z) - HoloBrain-0 Technical Report [24.68330043768013]
HoloBrain-0はVLA(Vision-Language-Action)フレームワークである。
本システムの中核となるVLAアーキテクチャは,マルチビューカメラパラメータやキネマティックな記述を含む,ロボットのエンボディメントを明示的に組み込んだ新しいアーキテクチャである。
1) 強力な事前トレーニングされたVLA基盤、(2) 複数のシミュレーションスイートと実世界のタスクのためのトレーニング後のチェックポイント、(3) データキュレーション、モデルトレーニング、デプロイメントのためのフルスタックのVLAインフラストラクチャであるRoboOrchardを含む、HoloBrainエコシステム全体をオープンソースにしています。
論文 参考訳(メタデータ) (2026-02-12T15:21:04Z) - RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation [104.68774434699158]
RoboInter Manipulation Suiteはデータ、ベンチマーク、中間表現のモデルを含む統一されたリソースである。
多様な表現の半自動アノテーションを可能にする軽量GUIであるRoboInter-Toolと、571の多様なシーンにわたる230万回以上のエピソードを含む大規模なデータセットであるRoboInter-Dataで構成されている。
RoboInter-VLAは、モジュールとエンドツーエンドのVLAバリアントをサポートする、統合されたプラン-then-executeフレームワークを提供する。
論文 参考訳(メタデータ) (2026-02-10T17:01:54Z) - MobileManiBench: Simplifying Model Verification for Mobile Manipulation [70.30578259859512]
MobileManiBenchは、モバイルベースのロボット操作のための大規模なベンチマークである。
MobileManiBenchには、2つのモバイルプラットフォーム(パラレルグリッパーとデキソラスハンドロボット)、2つの同期カメラ(頭と右手首)、630のオブジェクト(オープン、クローズ、プル、プッシュ、ピック)、5つのスキル(オープン、クローズ、プッシュ、ピック)、100以上のタスクが現実的なシーンで実行される。
論文 参考訳(メタデータ) (2026-02-05T02:49:52Z) - FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset [55.66606167502093]
我々は,大規模なUMIスタイルのマルチモーダルデモデータセットであるFastUMI-100Kを提案する。
FastUMI-100Kは、現実世界のロボットデモデータの多様な要求を満たすために、よりスケーラブルで柔軟性があり、適応可能なソリューションを提供する。
我々のデータセットは、エンドエフェクタ状態、多視点手首装着魚眼画像、テキストアノテーションを含むマルチモーダルストリームを統合している。
論文 参考訳(メタデータ) (2025-10-09T09:57:25Z) - AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation [27.07279683330287]
AIRoA MoMaは、モバイル操作のための大規模な実世界のマルチモーダルデータセットである。
これには、同期されたRGBイメージ、関節状態、6軸手首力トルク信号、そして内部ロボット状態が含まれる。
最初のデータセットは、HSR(Human Support Robot)で収集された25,469エピソードで構成され、LeRobot v2.1フォーマットで完全に標準化されている。
論文 参考訳(メタデータ) (2025-09-29T16:51:47Z) - RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [52.2244588424002]
我々は,多様かつ現実的なデータの自動生成のためのスケーラブルなフレームワークであるRoboTwin 2.0を紹介する。
コアとなるRoboTwin-ODは、セマンティックおよび操作関連アノテーションを備えた147カテゴリにわたる771インスタンスのオブジェクトライブラリである。
sim-to-real転送を改善するために、RoboTwin 2.0は5つの軸に沿って構造化された領域ランダム化を適用する。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins [33.78621017138685]
RoboTwinは、多種多様な専門家データセットを生成するために、3D生成基盤モデルと大規模言語モデルを使用する生成デジタルツインフレームワークである。
具体的には、RoboTwinは単一の2D画像からさまざまなデジタルツインを生成し、現実的でインタラクティブなシナリオを生成する。
我々のフレームワークはシミュレーションデータと実世界のデータの両方で包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと実世界のパフォーマンスの整合性を向上させる。
論文 参考訳(メタデータ) (2025-04-17T16:14:24Z) - Bi-Manual Block Assembly via Sim-to-Real Reinforcement Learning [24.223788665601678]
2つのxArm6ロボットがU字型組立タスクを、シミュレーションで90%以上、実際のハードウェアで50%の確率で解決する。
以上の結果から,本システムは今後,深部RLおよびSim2Real転送バイマニュアルポリアの研究を刺激していきたいと願っている。
論文 参考訳(メタデータ) (2023-03-27T01:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。