論文の概要: EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments
- arxiv url: http://arxiv.org/abs/2503.08604v1
- Date: Tue, 11 Mar 2025 16:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:41:44.313260
- Title: EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments
- Title(参考訳): EMMOE: オープン環境におけるモバイル操作の総合ベンチマーク
- Authors: Dongping Li, Tielong Cai, Tianci Tang, Wenhao Chai, Katherine Rose Driggs-Campbell, Gaoang Wang,
- Abstract要約: Embodied Mobile Manipulation in Open Environments (EMMOE) を導入する。
EMMOEは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合する。
さらに,DPO(Direct Optimization Preference)と軽量ナビゲーションおよび操作モデル,複数エラー検出機構を備えた高度なエージェントシステムであるHomieBotを設計した。
- 参考スコア(独自算出の注目度): 11.97783742296183
- License:
- Abstract: Developing autonomous home robots controlled by natural language has long been a pursuit of human. While advancements in large language models (LLMs) and embodied intelligence make this goal closer, several challenges persist: the lack of a unified benchmark for more complex robot tasks, limited evaluation methods and metrics, data incompatibility between LLMs and mobile manipulation trajectories. To address these issues, we introduce Embodied Mobile Manipulation in Open Environments (EMMOE), which requires agents to interpret user instructions and execute long-horizon everyday tasks in continuous space. EMMOE seamlessly integrates high-level and low-level embodied tasks into a unified framework, along with three new metrics for more diverse assessment. Additionally, we collect EMMOE-100, which features in various task attributes, detailed process annotations, re-plans after failures, and two sub-datasets for LLM training. Furthermore, we design HomieBot, a sophisticated agent system consists of LLM with Direct Preference Optimization (DPO), light weighted navigation and manipulation models, and multiple error detection mechanisms. Finally, we demonstrate HomieBot's performance and the evaluation of different models and policies.
- Abstract(参考訳): 自然言語で制御される自律型ホームロボットの開発は、長い間、人間の追求だった。
大規模言語モデル(LLM)とエンボディインテリジェンス(英語版)の進歩により、この目標が近づいている一方で、より複雑なロボットタスクのための統一ベンチマークの欠如、限られた評価方法とメトリクス、LLMとモバイル操作トラジェクトリ間のデータ非互換性など、いくつかの課題が続いている。
これらの問題に対処するために,Embodied Mobile Manipulation in Open Environments (EMMOE)を導入する。
EMMOEは、より多様な評価のための3つの新しいメトリクスとともに、ハイレベルで低レベルな実施タスクを統一されたフレームワークにシームレスに統合する。
さらに,各種タスク属性,詳細なプロセスアノテーション,障害後の再計画,LLMトレーニング用の2つのサブデータセットを特徴とするEMMOE-100を収集する。
さらに,直接優先度最適化(DPO)と軽量ナビゲーションおよび操作モデル,複数エラー検出機構を備えた高度なエージェントシステムであるHomieBotを設計する。
最後に、HomieBotのパフォーマンスと、異なるモデルとポリシーの評価を示す。
関連論文リスト
- Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - Large Language Models for Multi-Robot Systems: A Survey [9.31855372655603]
マルチロボットシステム(MRS)は、調整、スケーラビリティ、現実の適応性など、ユニークな課題を提起する。
このサーベイは、MSSへのLLM(Large Language Models)統合に関する最初の包括的な調査を提供する。
家庭用ロボティクス、建設、構成制御、目標追跡、ロボットゲームなど、さまざまな分野における重要な応用に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-06T06:52:14Z) - EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。