論文の概要: M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- arxiv url: http://arxiv.org/abs/2410.06678v3
- Date: Thu, 29 May 2025 04:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 15:42:32.588806
- Title: M3Bench: Benchmarking Whole-body Motion Generation for Mobile Manipulation in 3D Scenes
- Title(参考訳): M3Bench:3次元シーンにおける移動操作のための全身運動生成のベンチマーク
- Authors: Zeyu Zhang, Sixu Yan, Muzhi Han, Zaijin Wang, Xinggang Wang, Song-Chun Zhu, Hangxin Liu,
- Abstract要約: M3Benchは、モバイル操作タスクにおける全身の動き生成のための新しいベンチマークである。
M3Benchは、119の多様なシーンに3万のオブジェクト再構成タスクを備えている。
M3BenchとM3BenchMakerは、より適応的で有能なモバイル操作に向けたロボティクスの研究を進めることを目指している。
- 参考スコア(独自算出の注目度): 66.44171200767839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose M3Bench, a new benchmark for whole-body motion generation in mobile manipulation tasks. Given a 3D scene context, M3Bench requires an embodied agent to reason about its configuration, environmental constraints, and task objectives to generate coordinated whole-body motion trajectories for object rearrangement. M3Bench features 30,000 object rearrangement tasks across 119 diverse scenes, providing expert demonstrations generated by our newly developed M3BenchMaker, an automatic data generation tool that produces whole-body motion trajectories from high-level task instructions using only basic scene and robot information. Our benchmark includes various task splits to evaluate generalization across different dimensions and leverages realistic physics simulation for trajectory assessment. Extensive evaluation analysis reveals that state-of-the-art models struggle with coordinating base-arm motion while adhering to environmental and task-specific constraints, underscoring the need for new models to bridge this gap. By releasing M3Bench and M3BenchMaker we aim to advance robotics research toward more adaptive and capable mobile manipulation in diverse, real-world environments.
- Abstract(参考訳): モバイル操作タスクにおける全身動作生成のための新しいベンチマークであるM3Benchを提案する。
3Dシーンのコンテキストが与えられた場合、M3Benchはその構成、環境制約、タスクの目的を推論し、オブジェクトの再配置のために全体の運動軌跡を調整する必要がある。
M3Benchは、119の多様なシーンで3万個のオブジェクトを並べ替えるタスクを特徴としている。M3BenchMakerは、基本的なシーンとロボット情報のみを使用して、ハイレベルなタスク命令から全身の動きトラジェクトリを生成する自動データ生成ツールである。
本ベンチマークでは,各次元の一般化を評価するための様々なタスク分割と,実際の物理シミュレーションをトラジェクトリ評価に活用する。
大規模評価分析により、最先端のモデルでは、環境やタスク固有の制約を順守しながらベースアームの動きを調整するのに苦労し、このギャップを埋める新しいモデルの必要性が強調された。
M3BenchとM3BenchMakerをリリースすることによって、さまざまな実環境において、より適応的で有能なモバイル操作に向けたロボティクス研究を進めることを目指している。
関連論文リスト
- Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy [68.50785963043161]
GemBenchは視覚言語ロボット操作ポリシーの一般化能力を評価するための新しいベンチマークである。
LLMのタスク計画機能と3D-LOTUSの動作計画機能を統合するフレームワークである3D-LOTUS++を提案する。
3D-LOTUS++はGemBenchの新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定している。
論文 参考訳(メタデータ) (2024-10-02T09:02:34Z) - Task-oriented Sequential Grounding and Navigation in 3D Scenes [33.740081195089964]
3D環境における自然言語の接地は、堅牢な3Dビジョン言語アライメントを実現するための重要なステップである。
本研究では,3次元シーンにおけるタスク指向の逐次的グラウンドとナビゲーションという,新しいタスクを紹介する。
SG3Dは22,346のタスクと112,236のステップからなる大規模データセットで、4,895の現実世界の3Dシーンにまたがる。
論文 参考訳(メタデータ) (2024-08-07T18:30:18Z) - Human-Object Interaction from Human-Level Instructions [16.70362477046958]
対象動作,全体動作,指動作を人体レベルで同時に合成できる最初の完全システムを提案する。
実験では,高レベルプランナが多目的物体の現実的相互作用を合成する上で,高レベルな目標レイアウトの生成に有効であることを実証した。
論文 参考訳(メタデータ) (2024-06-25T17:46:28Z) - Closed Loop Interactive Embodied Reasoning for Robot Manipulation [17.732550906162192]
身体的推論システムは、ロボットハードウェアと認知プロセスを統合して複雑なタスクを実行する。
我々は,MuJoCo物理エンジンと高品質ブレンダーを利用した新しいシミュレーション環境を提案する。
視覚と身体の同時計測を必要とする10種類の多段階推論シナリオからなる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-04-23T16:33:28Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - The ThreeDWorld Transport Challenge: A Visually Guided Task-and-Motion
Planning Benchmark for Physically Realistic Embodied AI [96.86091264553613]
3Dワールドトランスポートチャレンジと呼ばれる視覚誘導と物理駆動のタスク・アンド・モーション計画ベンチマークを紹介します。
この課題では、シミュレーションされた実家環境において、2つの9-DOF関節アームを備えたエンボディエージェントをランダムに生成する。
エージェントは、家の周りに散在するオブジェクトの小さなセットを見つけ、それらをピックアップし、望ましい最終的な場所に輸送する必要があります。
論文 参考訳(メタデータ) (2021-03-25T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。