論文の概要: M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- arxiv url: http://arxiv.org/abs/2410.06678v2
- Date: Tue, 15 Oct 2024 03:02:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:19:50.093739
- Title: M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- Title(参考訳): M3Bench:3次元シーンにおける移動操作のための全身運動生成のベンチマーク
- Authors: Zeyu Zhang, Sixu Yan, Muzhi Han, Zaijin Wang, Xinggang Wang, Song-Chun Zhu, Hangxin Liu,
- Abstract要約: モバイル操作タスクのための全身動作生成のベンチマークであるM3Benchを提案する。
M3Benchは、その構成、環境制約、タスクの目的を理解するために、実施エージェントを必要とする。
M3Benchは119の多様なシーンにまたがる30kのオブジェクト再構成タスクを備えており、新たに開発したM3BenchMakerによって生成された専門家によるデモを提供する。
- 参考スコア(独自算出の注目度): 66.44171200767839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose M^3Bench, a new benchmark of whole-body motion generation for mobile manipulation tasks. Given a 3D scene context, M^3Bench requires an embodied agent to understand its configuration, environmental constraints and task objectives, then generate coordinated whole-body motion trajectories for object rearrangement tasks. M^3Bench features 30k object rearrangement tasks across 119 diverse scenes, providing expert demonstrations generated by our newly developed M^3BenchMaker. This automatic data generation tool produces coordinated whole-body motion trajectories from high-level task instructions, requiring only basic scene and robot information. Our benchmark incorporates various task splits to assess generalization across different dimensions and leverages realistic physics simulation for trajectory evaluation. Through extensive experimental analyses, we reveal that state-of-the-art models still struggle with coordinated base-arm motion while adhering to environment-context and task-specific constraints, highlighting the need to develop new models that address this gap. Through M^3Bench, we aim to facilitate future robotics research towards more adaptive and capable mobile manipulation in diverse, real-world environments.
- Abstract(参考訳): モバイル操作タスクのための全身動作生成のベンチマークであるM^3Benchを提案する。
3Dシーンのコンテキストを前提として、M^3Benchは、その構成、環境制約、タスク目標を理解し、オブジェクト再構成タスクのための調整された全身運動軌跡を生成するために、エボダイドエージェントを必要とする。
M^3Benchは119の多様なシーンにまたがって30k個のオブジェクトアレンジメントタスクを特徴とし、新たに開発したM^3BenchMakerによって生成された専門家によるデモンストレーションを提供する。
この自動データ生成ツールは、基本的なシーンとロボット情報のみを必要とする高レベルなタスク命令から、調整された全身運動軌跡を生成する。
本ベンチマークでは,様々なタスク分割を取り入れ,様々な次元にわたる一般化の評価を行い,実際の物理シミュレーションを用いて軌道評価を行う。
広範にわたる実験的分析により、現状のモデルは、環境コンテキストやタスク固有の制約に固執しながら、制御されたベースアームの動きに苦しむことが明らかとなり、このギャップに対処する新しいモデルを開発する必要性が浮き彫りになった。
我々は,M^3Benchを通じて,多様な実環境において,より適応的で有能な移動操作を実現するためのロボット研究を促進することを目的とする。
関連論文リスト
- Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy [68.50785963043161]
GemBenchは視覚言語ロボット操作ポリシーの一般化能力を評価するための新しいベンチマークである。
LLMのタスク計画機能と3D-LOTUSの動作計画機能を統合するフレームワークである3D-LOTUS++を提案する。
3D-LOTUS++はGemBenchの新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定している。
論文 参考訳(メタデータ) (2024-10-02T09:02:34Z) - Human-Object Interaction from Human-Level Instructions [16.70362477046958]
対象動作,全体動作,指動作を人体レベルで同時に合成できる最初の完全システムを提案する。
実験では,高レベルプランナが多目的物体の現実的相互作用を合成する上で,高レベルな目標レイアウトの生成に有効であることを実証した。
論文 参考訳(メタデータ) (2024-06-25T17:46:28Z) - Closed Loop Interactive Embodied Reasoning for Robot Manipulation [17.732550906162192]
身体的推論システムは、ロボットハードウェアと認知プロセスを統合して複雑なタスクを実行する。
我々は,MuJoCo物理エンジンと高品質ブレンダーを利用した新しいシミュレーション環境を提案する。
視覚と身体の同時計測を必要とする10種類の多段階推論シナリオからなる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-04-23T16:33:28Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - The ThreeDWorld Transport Challenge: A Visually Guided Task-and-Motion
Planning Benchmark for Physically Realistic Embodied AI [96.86091264553613]
3Dワールドトランスポートチャレンジと呼ばれる視覚誘導と物理駆動のタスク・アンド・モーション計画ベンチマークを紹介します。
この課題では、シミュレーションされた実家環境において、2つの9-DOF関節アームを備えたエンボディエージェントをランダムに生成する。
エージェントは、家の周りに散在するオブジェクトの小さなセットを見つけ、それらをピックアップし、望ましい最終的な場所に輸送する必要があります。
論文 参考訳(メタデータ) (2021-03-25T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。