論文の概要: MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2509.22281v1
- Date: Fri, 26 Sep 2025 12:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.425676
- Title: MesaTask: Towards Task-Driven Tabletop Scene Generation via 3D Spatial Reasoning
- Title(参考訳): MesaTask:3次元空間推論によるタスク駆動テーブルトップシーン生成を目指して
- Authors: Jinkun Hao, Naifu Liang, Zhen Luo, Xudong Xu, Weipeng Zhong, Ran Yi, Yichen Jin, Zhaoyang Lyu, Feng Zheng, Lizhuang Ma, Jiangmiao Pang,
- Abstract要約: 操作タスクを実行するロボットの能力は、トレーニングのためのタスク関連テーブルトップシーンの可用性を必要とする。
これらのシーンを作成する伝統的な方法は、時間を要する手動レイアウト設計や純粋にランダムなレイアウトに依存している。
我々は、この推論チェーンを利用したLCMベースのフレームワークであるMesaTaskを、DPOアルゴリズムにより拡張し、物理的に可算なテーブルトップシーンを生成する。
- 参考スコア(独自算出の注目度): 97.97174328960807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability of robots to interpret human instructions and execute manipulation tasks necessitates the availability of task-relevant tabletop scenes for training. However, traditional methods for creating these scenes rely on time-consuming manual layout design or purely randomized layouts, which are limited in terms of plausibility or alignment with the tasks. In this paper, we formulate a novel task, namely task-oriented tabletop scene generation, which poses significant challenges due to the substantial gap between high-level task instructions and the tabletop scenes. To support research on such a challenging task, we introduce MesaTask-10K, a large-scale dataset comprising approximately 10,700 synthetic tabletop scenes with manually crafted layouts that ensure realistic layouts and intricate inter-object relations. To bridge the gap between tasks and scenes, we propose a Spatial Reasoning Chain that decomposes the generation process into object inference, spatial interrelation reasoning, and scene graph construction for the final 3D layout. We present MesaTask, an LLM-based framework that utilizes this reasoning chain and is further enhanced with DPO algorithms to generate physically plausible tabletop scenes that align well with given task descriptions. Exhaustive experiments demonstrate the superior performance of MesaTask compared to baselines in generating task-conforming tabletop scenes with realistic layouts. Project page is at https://mesatask.github.io/
- Abstract(参考訳): ロボットが人間の指示を解釈し、操作タスクを実行する能力は、トレーニングに必要なタスク関連テーブルトップシーンの可用性を必要とする。
しかしながら、これらのシーンを作成する従来の手法は、作業の妥当性や整合性の点で制限された、時間を要する手動レイアウト設計や純粋にランダム化されたレイアウトに依存している。
本稿では,タスク指向のテーブルトップシーン生成という新しいタスクを定式化する。
このような課題の研究を支援するために,約10,700の合成テーブルトップシーンからなる大規模データセットであるMesaTask-10Kを紹介した。
タスクとシーンのギャップを埋めるために,生成プロセスをオブジェクト推論,空間相互関係推論,シーングラフ構築に分解する空間推論チェインを提案する。
我々は,この推論チェーンを利用するLLMベースのフレームワークであるMesaTaskをDPOアルゴリズムにより拡張し,与えられたタスク記述と整合性のある物理的に可算なテーブルトップシーンを生成する。
実測実験は,タスクコンフォーミングなテーブルトップシーンをリアルなレイアウトで生成する際のベースラインと比較して,MesaTaskの優れた性能を示す。
プロジェクトページはhttps://mesatask.github.io/にある。
関連論文リスト
- ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis [15.68979922374718]
ASHiTAは、ハイレベルなタスクをグラウンド化されたサブタスクに分解することで、3Dシーングラフにグラウンドされたタスク階層を生成するフレームワークである。
実験の結果,ASHiTAは環境依存サブタスクに高レベルタスクを分割する際のLCMベースラインよりもはるかに優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-09T03:22:52Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Robot Task Planning Based on Large Language Model Representing Knowledge
with Directed Graph Structures [2.3698227130544547]
本研究では,人間の専門知識をLLMと組み合わせたタスクプランニング手法を提案し,LLMプロンプトテンプレートであるThink_Net_Promptを設計した。
さらに,タスクを段階的に分解し,タスクツリーを生成して各タスクの計画量を削減する手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:10:00Z) - Unsupervised Task Graph Generation from Instructional Video Transcripts [53.54435048879365]
本研究では,実世界の活動を行う指導ビデオのテキスト書き起こしを提供する環境について考察する。
目標は、これらの重要なステップ間の依存関係関係と同様に、タスクに関連する重要なステップを特定することです。
本稿では,命令調整言語モデルの推論能力とクラスタリングとランキングコンポーネントを組み合わせたタスクグラフ生成手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T22:50:08Z) - Sequential Manipulation Planning on Scene Graph [90.28117916077073]
我々は,効率的な逐次タスク計画のための3次元シーングラフ表現であるコンタクトグラフ+(cg+)を考案する。
ゴール設定は、自然にコンタクトグラフに指定され、最適化法を用いて遺伝的アルゴリズムによって作成することができる。
次に、初期接触グラフと目標設定との間のグラフ編集距離(GED)を計算してタスクプランを簡潔化し、ロボット動作に対応するグラフ編集操作を生成する。
論文 参考訳(メタデータ) (2022-07-10T02:01:33Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - TO-Scene: A Large-scale Dataset for Understanding 3D Tabletop Scenes [24.422147844863304]
テーブルトップシーンに焦点を当てた大規模データセットであるTO-Sceneを紹介する。
データを取得するために、ScanNetからCADオブジェクトをテーブルに転送するクラウドソーシングUIが開発された。
小型のテーブルトップインスタンスをよりよく知覚するためのテーブルトップ対応学習戦略を提案する。
論文 参考訳(メタデータ) (2022-03-17T17:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。