論文の概要: Scalable Trajectory Generation for Whole-Body Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2604.12565v1
- Date: Tue, 14 Apr 2026 10:47:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.398006
- Title: Scalable Trajectory Generation for Whole-Body Mobile Manipulation
- Title(参考訳): 全体移動操作のためのスケーラブルな軌道生成
- Authors: Yida Niu, Xinhai Chang, Xin Liu, Ziyuan Jiao, Yixin Zhu,
- Abstract要約: 我々は、AKRモデリング、ベース、アーム、オブジェクトキネマティクスを単一のチェーンに統合するGPUアクセラレーションフレームワークであるAutoMoMaを紹介する。
AutoMoMaは、330のシーンにまたがる500万以上の物理的に有効な軌跡、多彩な調音されたオブジェクト、複数のロボットの実施状況のデータセットを生成する。
- 参考スコア(独自算出の注目度): 10.909540204939598
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Robots deployed in unstructured environments must coordinate whole-body motion -- simultaneously moving a mobile base and arm -- to interact with the physical world. This coupled mobility and dexterity yields a state space that grows combinatorially with scene and object diversity, demanding datasets far larger than those sufficient for fixed-base manipulation. Yet existing acquisition methods, including teleoperation and planning, are either labor-intensive or computationally prohibitive at scale. The core bottleneck is the lack of a scalable pipeline for generating large-scale, physically valid, coordinated trajectory data across diverse embodiments and environments. Here we introduce AutoMoMa, a GPU-accelerated framework that unifies AKR modeling, which consolidates base, arm, and object kinematics into a single chain, with parallelized trajectory optimization. AutoMoMa achieves 5,000 episodes per GPU-hour (over $80\times$ faster than CPU-based baselines), producing a dataset of over 500k physically valid trajectories spanning 330 scenes, diverse articulated objects, and multiple robot embodiments. Prior datasets were forced to compromise on scale, diversity, or kinematic fidelity; AutoMoMa addresses all three simultaneously. Training downstream IL policies further reveals that even a single articulated-object task requires tens of thousands of demonstrations for SOTA methods to reach $\approx 80\%$ success, confirming that data scarcity -- not algorithmic limitations -- has been the binding constraint. AutoMoMa thus bridges high-performance planning and reliable IL-based control, providing the infrastructure previously missing for coordinated mobile manipulation research. By making large-scale, kinematically valid training data practical, AutoMoMa showcases generalizable whole-body robot policies capable of operating in the diverse, unstructured settings of the real world.
- Abstract(参考訳): 非構造環境に配備されたロボットは、物理的な世界と対話するために、体全体の動き(同時に移動台と腕を動かす)を調整する必要がある。
この結合されたモビリティとデクスタリティは、シーンやオブジェクトの多様性と組み合わせて成長する状態空間をもたらし、固定ベース操作に十分なデータセットよりもはるかに大きなデータセットを要求する。
しかし、遠隔操作と計画を含む既存の取得方法は、大規模に労働集約的または計算的に禁止されている。
コアボトルネックは、さまざまな実施環境や環境にまたがって、大規模で、物理的に有効な、コーディネートされたトラジェクトリデータを生成する、スケーラブルなパイプラインがないことだ。
本稿では、AKRモデリングを統一したGPUアクセラレーションフレームワークであるAutoMoMaを紹介し、ベース、アーム、オブジェクトキネマティクスを1つのチェーンに統合し、並列化された軌道最適化を行う。
AutoMoMaはGPU時間あたり5000回(CPUベースベースラインより80ドル以上速い)を達成し、330のシーンにまたがる物理的に有効なトラジェクトリ500万以上のデータセット、多彩な記述されたオブジェクト、複数のロボットエボディメントを生成する。
以前のデータセットでは、スケール、多様性、あるいはキネマティックフィリティを妥協せざるを得なかった。
ダウンストリームのILポリシのトレーニングはさらに、アルゴリズム的な制限ではなく、データの不足がバインディングの制約であることを確認して、SOTAメソッドが$\approx 80\%以上の成功に達するためには、単一の明示されたオブジェクトタスクでさえ何万ものデモが必要であることを明らかにしている。
したがってAutoMoMaは高性能な計画と信頼性の高いILベースの制御を橋渡しし、これまでモバイル操作の協調研究に欠けていたインフラを提供する。
大規模かつキネマティックに有効なトレーニングデータを実用的なものにすることで、AutoMoMaは現実世界の多様な非構造的な環境で動作可能な汎用可能な全身ロボットポリシーを紹介している。
関連論文リスト
- ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - MobileManiBench: Simplifying Model Verification for Mobile Manipulation [70.30578259859512]
MobileManiBenchは、モバイルベースのロボット操作のための大規模なベンチマークである。
MobileManiBenchには、2つのモバイルプラットフォーム(パラレルグリッパーとデキソラスハンドロボット)、2つの同期カメラ(頭と右手首)、630のオブジェクト(オープン、クローズ、プル、プッシュ、ピック)、5つのスキル(オープン、クローズ、プッシュ、ピック)、100以上のタスクが現実的なシーンで実行される。
論文 参考訳(メタデータ) (2026-02-05T02:49:52Z) - RoboMIND 2.0: A Multimodal, Bimanual Mobile Manipulation Dataset for Generalizable Embodied Intelligence [59.39508501733987]
本稿では,RoboMIND 2.0について紹介する。これは310K以上のデュアルアーム操作トラジェクトリからなる,総合的な実世界のデータセットである。
コンタクトリッチで空間的に拡張されたタスクの研究を支援するため、データセットには12Kの触覚強調エピソードと20Kの移動操作トラジェクトリが組み込まれている。
RoboMIND 2.0の可能性をフル活用するために、オフライン強化学習により最適化された階層型デュアルシステムフレームワークであるMIND-2システムを提案する。
論文 参考訳(メタデータ) (2025-12-31T05:59:40Z) - FastUMI-100K: Advancing Data-driven Robotic Manipulation with a Large-scale UMI-style Dataset [55.66606167502093]
我々は,大規模なUMIスタイルのマルチモーダルデモデータセットであるFastUMI-100Kを提案する。
FastUMI-100Kは、現実世界のロボットデモデータの多様な要求を満たすために、よりスケーラブルで柔軟性があり、適応可能なソリューションを提供する。
我々のデータセットは、エンドエフェクタ状態、多視点手首装着魚眼画像、テキストアノテーションを含むマルチモーダルストリームを統合している。
論文 参考訳(メタデータ) (2025-10-09T09:57:25Z) - Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation [0.6533458718563319]
本稿では,腕を備えた四足歩行の把握能力を高めるための枠組みを提案する。
そこで我々は,ジェネシスシミュレーション環境内にパイプラインを構築し,共通物体の把握試行の合成データセットを生成する。
このデータセットは、オンボードのRGBとディープカメラからのマルチモーダル入力を処理するU-Netのようなアーキテクチャで、カスタムCNNのトレーニングに使用された。
四脚ロボットの完全な枠組みを検証した。
論文 参考訳(メタデータ) (2025-08-24T17:47:56Z) - M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes [66.44171200767839]
M3Benchは、モバイル操作タスクにおける全身の動き生成のための新しいベンチマークである。
M3Benchは、119の多様なシーンに3万のオブジェクト再構成タスクを備えている。
M3BenchとM3BenchMakerは、より適応的で有能なモバイル操作に向けたロボティクスの研究を進めることを目指している。
論文 参考訳(メタデータ) (2024-10-09T08:38:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。