論文の概要: MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2510.18316v1
- Date: Tue, 21 Oct 2025 05:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.939099
- Title: MoMaGen: Generating Demonstrations under Soft and Hard Constraints for Multi-Step Bimanual Mobile Manipulation
- Title(参考訳): MoMaGen:マルチステップバイマニピュレーションのためのソフトおよびハード制約下でのデモ生成
- Authors: Chengshu Li, Mengdi Xu, Arpit Bahety, Hang Yin, Yunfan Jiang, Huang Huang, Josiah Wong, Sujay Garlanka, Cem Gokmen, Ruohan Zhang, Weiyu Liu, Jiajun Wu, Roberto Martín-Martín, Li Fei-Fei,
- Abstract要約: 本稿では,データ生成を制約付き最適化問題として定式化するMoMaGenを紹介する。
既存の手法よりもはるかに多様なデータセットを生成することを示す。
MoMaGenは、単一のソースデモから成功した模倣学習ポリシーをトレーニングすることができる。
- 参考スコア(独自算出の注目度): 37.870170020889994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning from large-scale, diverse human demonstrations has proven effective for training robots, but collecting such data is costly and time-consuming. This challenge is amplified for multi-step bimanual mobile manipulation, where humans must teleoperate both a mobile base and two high-degree-of-freedom arms. Prior automated data generation frameworks have addressed static bimanual manipulation by augmenting a few human demonstrations in simulation, but they fall short for mobile settings due to two key challenges: (1) determining base placement to ensure reachability, and (2) positioning the camera to provide sufficient visibility for visuomotor policies. To address these issues, we introduce MoMaGen, which formulates data generation as a constrained optimization problem that enforces hard constraints (e.g., reachability) while balancing soft constraints (e.g., visibility during navigation). This formulation generalizes prior approaches and provides a principled foundation for future methods. We evaluate MoMaGen on four multi-step bimanual mobile manipulation tasks and show that it generates significantly more diverse datasets than existing methods. Leveraging this diversity, MoMaGen can train successful imitation learning policies from a single source demonstration, and these policies can be fine-tuned with as few as 40 real-world demonstrations to achieve deployment on physical robotic hardware. More details are available at our project page: momagen.github.io.
- Abstract(参考訳): 大規模で多様な人間のデモンストレーションからの模倣学習は、ロボットの訓練に有効であることが証明されているが、そのようなデータの収集には費用がかかり、時間がかかる。
この課題は、人間が移動基地と2つの高自由度アームの両方を遠隔操作する必要がある、多段階のバイマニュアルモバイル操作のために増幅されている。
従来の自動データ生成フレームワークは,シミュレーションにおける人間によるデモの強化による静的なバイマニュアル操作に対処してきたが,(1)到達性を確保するためのベース配置の決定,(2)バイスモータポリシに対する十分な可視性を提供するためにカメラの位置決めという2つの重要な課題により,モバイル環境では不足している。
これらの問題に対処するために,データ生成を制約付き最適化問題として定式化し,ソフト制約(ナビゲーション時の可視性など)のバランスを保ちながら,ハード制約(到達性など)を強制するMoMaGenを導入する。
この定式化は、事前のアプローチを一般化し、将来の手法の原則的な基礎を提供する。
我々は,MoMaGenを4つの多段階双方向モバイル操作タスクで評価し,既存の手法よりもはるかに多様なデータセットを生成することを示す。
この多様性を活用して、MoMaGenは、単一のソースデモから成功した模倣学習ポリシーをトレーニングすることができる。
詳細はプロジェクトのページで確認できます。
関連論文リスト
- AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation [27.07279683330287]
AIRoA MoMaは、モバイル操作のための大規模な実世界のマルチモーダルデータセットである。
これには、同期されたRGBイメージ、関節状態、6軸手首力トルク信号、そして内部ロボット状態が含まれる。
最初のデータセットは、HSR(Human Support Robot)で収集された25,469エピソードで構成され、LeRobot v2.1フォーマットで完全に標準化されている。
論文 参考訳(メタデータ) (2025-09-29T16:51:47Z) - MV-UMI: A Scalable Multi-View Interface for Cross-Embodiment Learning [3.079859911926098]
本稿では,3人称視点とエゴセントリックカメラを統合したMV-UMI(Multi-View Universal Manipulation Interface)を提案する。
この統合は、人間のデモとロボットのデプロイメントの間のドメインシフトを軽減し、ハンドヘルドデータ収集デバイスのクロスボデーメントの利点を保存する。
論文 参考訳(メタデータ) (2025-09-23T07:53:05Z) - Manipulate-Anything: Automating Real-World Robots using Vision-Language Models [47.16659229389889]
実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。
Manipulate-Anythingは、特権のある状態情報や手書きのスキルなしで現実世界の環境で動作でき、静的オブジェクトを操作できる。
論文 参考訳(メタデータ) (2024-06-27T06:12:01Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Error-Aware Imitation Learning from Teleoperation Data for Mobile
Manipulation [54.31414116478024]
移動操作(MM)では、ロボットは環境内を移動して操作することができる。
本研究では,MMタスクに対する連続的なビジュオモダポリシの学習に模倣学習(IL)を適用する方法について検討する。
論文 参考訳(メタデータ) (2021-12-09T23:54:59Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。