論文の概要: AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2509.25032v1
- Date: Mon, 29 Sep 2025 16:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.137747
- Title: AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation
- Title(参考訳): AIRoA MoMa Dataset: モバイル操作のための大規模階層型データセット
- Authors: Ryosuke Takanami, Petr Khrapchenkov, Shu Morikuni, Jumpei Arima, Yuta Takaba, Shunsuke Maeda, Takuya Okubo, Genki Sano, Satoshi Sekioka, Aoi Kadoya, Motonari Kambara, Naoya Nishiura, Haruto Suzuki, Takanori Yoshimoto, Koya Sakamoto, Shinnosuke Ono, Hu Yang, Daichi Yashima, Aoi Horo, Tomohiro Motoda, Kensuke Chiyoma, Hiroshi Ito, Koki Fukuda, Akihito Goto, Kazumi Morinaga, Yuya Ikeda, Riko Kawada, Masaki Yoshikawa, Norio Kosuge, Yuki Noguchi, Kei Ota, Tatsuya Matsushima, Yusuke Iwasawa, Yutaka Matsuo, Tetsuya Ogata,
- Abstract要約: AIRoA MoMaは、モバイル操作のための大規模な実世界のマルチモーダルデータセットである。
これには、同期されたRGBイメージ、関節状態、6軸手首力トルク信号、そして内部ロボット状態が含まれる。
最初のデータセットは、HSR(Human Support Robot)で収集された25,469エピソードで構成され、LeRobot v2.1フォーマットで完全に標準化されている。
- 参考スコア(独自算出の注目度): 27.07279683330287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As robots transition from controlled settings to unstructured human environments, building generalist agents that can reliably follow natural language instructions remains a central challenge. Progress in robust mobile manipulation requires large-scale multimodal datasets that capture contact-rich and long-horizon tasks, yet existing resources lack synchronized force-torque sensing, hierarchical annotations, and explicit failure cases. We address this gap with the AIRoA MoMa Dataset, a large-scale real-world multimodal dataset for mobile manipulation. It includes synchronized RGB images, joint states, six-axis wrist force-torque signals, and internal robot states, together with a novel two-layer annotation schema of sub-goals and primitive actions for hierarchical learning and error analysis. The initial dataset comprises 25,469 episodes (approx. 94 hours) collected with the Human Support Robot (HSR) and is fully standardized in the LeRobot v2.1 format. By uniquely integrating mobile manipulation, contact-rich interaction, and long-horizon structure, AIRoA MoMa provides a critical benchmark for advancing the next generation of Vision-Language-Action models. The first version of our dataset is now available at https://huggingface.co/datasets/airoa-org/airoa-moma .
- Abstract(参考訳): ロボットが制御された環境から非構造的な環境へと移行するにつれ、自然言語の指示を確実に追従できる汎用エージェントの構築は、依然として中心的な課題である。
堅牢なモバイル操作の進歩には、コンタクト豊富な長い水平タスクをキャプチャする大規模なマルチモーダルデータセットが必要であるが、既存のリソースには同期されたフォーストルクセンシング、階層的アノテーション、明示的な障害ケースがない。
このギャップをモバイル操作のための大規模実世界のマルチモーダルデータセットであるAIRoA MoMa Datasetで解決する。
これには、同期されたRGBイメージ、関節状態、6軸手首力トルク信号、および内部ロボット状態が含まれ、サブゴールの新たな2層アノテーションスキーマ、階層的な学習とエラー解析のための原始的なアクションが含まれる。
最初のデータセットは25,469エピソード(約94時間)をHSR(Human Support Robot)で収集し、LeRobot v2.1フォーマットで完全に標準化されている。
AIRoA MoMaは、モバイル操作、コンタクトリッチインタラクション、ロングホライゾン構造を統合することで、次世代のVision-Language-Actionモデルを改善するための重要なベンチマークを提供する。
私たちのデータセットの最初のバージョンはhttps://huggingface.co/datasets/airoa-org/airoa-momaで公開されています。
関連論文リスト
- HumanoidGen: Data Generation for Bimanual Dexterous Manipulation via LLM Reasoning [46.57163859424286]
本稿では,自動タスク生成およびデモコレクションフレームワークであるHumanoidGenを提案する。
具体的には,原子の操作に基づいて,資産と器用な手の両方に空間アノテーションを提供する。
実験では,収集したデータの品質を評価するために,拡張シナリオを用いた新しいベンチマークを作成する。
論文 参考訳(メタデータ) (2025-07-01T15:04:38Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - OWMM-Agent: Open World Mobile Manipulation With Multi-modal Agentic Data Synthesis [70.39500621448383]
オープンワールドのモバイル操作タスクは、オープンエンドの命令や環境への一般化が必要なため、依然として課題である。
本稿では,多視点のシーンフレームとエージェント状態を維持した新しいマルチモーダルエージェントアーキテクチャを提案する。
我々は,グローバルなシーン理解,ロボットの状態追跡,マルチモーダルアクション生成を統一モデルで実現した,モバイルマニピュレータのための基礎モデルであるOWMM-VLMについて紹介する。
論文 参考訳(メタデータ) (2025-06-04T17:57:44Z) - Scalable Video-to-Dataset Generation for Cross-Platform Mobile Agents [57.59830804627066]
実世界のモバイルOSナビゲーションをキャプチャする20Kの指導ビデオから,313Kの注釈付きフレームの大規模データセットであるMONDAYを紹介した。
MONDAYを事前学習フェーズに含むモデルは、堅牢なクロスプラットフォームの一般化機能を示す。
公開されているビデオコンテンツを利用して、包括的なタスクデータセットを作成する自動化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T02:39:03Z) - Kaiwu: A Multimodal Manipulation Dataset and Framework for Robot Learning and Human-Robot Interaction [5.989044517795631]
本稿では,実世界の同期型マルチモーダルデータ問題に対処するために,カイウーマルチモーダルデータセットを提案する。
このデータセットはまず、人間、環境、ロボットのデータ収集フレームワークを20の被験者と30のインタラクションオブジェクトと統合する。
絶対タイムスタンプに基づく細粒度マルチレベルアノテーションとセマンティックセグメンテーションラベリングを行う。
論文 参考訳(メタデータ) (2025-03-07T08:28:24Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。