論文の概要: Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution
- arxiv url: http://arxiv.org/abs/2511.19430v1
- Date: Mon, 24 Nov 2025 18:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.383736
- Title: Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution
- Title(参考訳): 料理とクリーニングを一緒にする: 並列タスク実行のための身体的エージェントを教える
- Authors: Dingkang Liang, Cheng Zhang, Xiaopeng Xu, Jianzhong Ju, Zhenbo Luo, Xiang Bai,
- Abstract要約: Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D)は、言語理解、3Dグラウンド、効率最適化の相乗効果を必要とする新しいタスクである。
ORS3Dの研究を容易にするために,ORS3D-60Kを構築した。
ORS3D-60Kの実験は、言語理解、3Dグラウンド、スケジューリング効率にまたがるGRANTの有効性を検証する。
- 参考スコア(独自算出の注目度): 51.89342880214462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task scheduling is critical for embodied AI, enabling agents to follow natural language instructions and execute actions efficiently in 3D physical worlds. However, existing datasets often simplify task planning by ignoring operations research (OR) knowledge and 3D spatial grounding. In this work, we propose Operations Research knowledge-based 3D Grounded Task Scheduling (ORS3D), a new task that requires the synergy of language understanding, 3D grounding, and efficiency optimization. Unlike prior settings, ORS3D demands that agents minimize total completion time by leveraging parallelizable subtasks, e.g., cleaning the sink while the microwave operates. To facilitate research on ORS3D, we construct ORS3D-60K, a large-scale dataset comprising 60K composite tasks across 4K real-world scenes. Furthermore, we propose GRANT, an embodied multi-modal large language model equipped with a simple yet effective scheduling token mechanism to generate efficient task schedules and grounded actions. Extensive experiments on ORS3D-60K validate the effectiveness of GRANT across language understanding, 3D grounding, and scheduling efficiency. The code is available at https://github.com/H-EmbodVis/GRANT
- Abstract(参考訳): タスクスケジューリングはAIの具体化にとって重要であり、エージェントは自然言語の指示に従い、3D物理世界で効率的にアクションを実行することができる。
しかし、既存のデータセットは、操作研究(OR)の知識や3次元空間的接地を無視してタスクプランニングを単純化することが多い。
本研究では,言語理解,3Dグラウンド,効率最適化の相乗効果を必要とする新しいタスクであるオペレーティング・リサーチ・ナレッジに基づく3次元グラウンドド・タスクスケジューリング(ORS3D)を提案する。
以前の設定とは異なり、ORS3Dは、マイクロ波が動作している間にシンクを掃除するなど、並列化可能なサブタスクを活用することで、エージェントの総完了時間を最小化することを要求している。
ORS3Dの研究を容易にするために,ORS3D-60Kを構築した。
さらに,簡単なスケジューリングトークン機構を備えたマルチモーダル大規模言語モデルGRANTを提案し,効率的なタスクスケジュールと接地動作を生成する。
ORS3D-60Kの広範囲な実験は、言語理解、3Dグラウンド、スケジューリング効率にまたがるGRANTの有効性を検証する。
コードはhttps://github.com/H-EmbodVis/GRANTで公開されている。
関連論文リスト
- 3D-Grounded Vision-Language Framework for Robotic Task Planning: Automated Prompt Synthesis and Supervised Reasoning [2.6670748466660523]
視覚言語モデル(VLM)はシーン理解と知覚タスクにおいて顕著な成功を収めた。
VLMにはロバストな3Dシーンのローカライズ機能がなく、ロボット操作の精度を制限している。
本稿では,2次元画像を点雲にマッピングすることで,2次元プロンプト合成モジュールを統合し,VLM出力を監視するための小さな言語モデル(SLM)を組み込む新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-13T02:40:19Z) - S2O: Static to Openable Enhancement for Articulated 3D Objects [20.310491257189422]
本稿では,静的な3次元オブジェクトを静的なオブジェクトから生成するS2Oタスクを紹介する。
我々の研究は、ロボット操作とAIタスクを具体化するインタラクティブな3Dオブジェクトを効率的に作成することを可能にする。
論文 参考訳(メタデータ) (2024-09-27T16:34:13Z) - Task-oriented Sequential Grounding and Navigation in 3D Scenes [33.740081195089964]
3D環境における自然言語の接地は、堅牢な3Dビジョン言語アライメントを実現するための重要なステップである。
本研究では,3次元シーンにおけるタスク指向の逐次的グラウンドとナビゲーションという,新しいタスクを紹介する。
SG3Dは22,346のタスクと112,236のステップからなる大規模データセットで、4,895の現実世界の3Dシーンにまたがる。
論文 参考訳(メタデータ) (2024-08-07T18:30:18Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - A Unified Framework for 3D Scene Understanding [50.6762892022386]
UniSeg3Dは統合された3Dシーン理解フレームワークである。
単一のモデル内で、パノプティクス、セマンティック、インスタンス、インタラクティブ、参照、オープンボキャブラリセグメンテーションタスクを達成する。
論文 参考訳(メタデータ) (2024-07-03T16:50:07Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - A Simple and Efficient Multi-task Network for 3D Object Detection and
Road Understanding [20.878931360708343]
シンプルで効率的なマルチタスクネットワークを通じて、すべての知覚タスクを実行できることを示します。
提案するネットワークであるLidarMTLは、生のLiDAR点雲を入力とし、3次元物体検出と道路理解のための6つの知覚出力を予測する。
論文 参考訳(メタデータ) (2021-03-06T08:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。