論文の概要: ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis
- arxiv url: http://arxiv.org/abs/2504.06553v3
- Date: Fri, 11 Apr 2025 12:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 10:55:28.594019
- Title: ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis
- Title(参考訳): ASHiTA: 自動シーングラウンド階層型タスク分析
- Authors: Yun Chang, Leonor Fermoselle, Duy Ta, Bernadette Bucher, Luca Carlone, Jiuguang Wang,
- Abstract要約: ASHiTAは、ハイレベルなタスクをグラウンド化されたサブタスクに分解することで、3Dシーングラフにグラウンドされたタスク階層を生成するフレームワークである。
実験の結果,ASHiTAは環境依存サブタスクに高レベルタスクを分割する際のLCMベースラインよりもはるかに優れた性能を示した。
- 参考スコア(独自算出の注目度): 15.68979922374718
- License:
- Abstract: While recent work in scene reconstruction and understanding has made strides in grounding natural language to physical 3D environments, it is still challenging to ground abstract, high-level instructions to a 3D scene. High-level instructions might not explicitly invoke semantic elements in the scene, and even the process of breaking a high-level task into a set of more concrete subtasks, a process called hierarchical task analysis, is environment-dependent. In this work, we propose ASHiTA, the first framework that generates a task hierarchy grounded to a 3D scene graph by breaking down high-level tasks into grounded subtasks. ASHiTA alternates LLM-assisted hierarchical task analysis, to generate the task breakdown, with task-driven 3D scene graph construction to generate a suitable representation of the environment. Our experiments show that ASHiTA performs significantly better than LLM baselines in breaking down high-level tasks into environment-dependent subtasks and is additionally able to achieve grounding performance comparable to state-of-the-art methods.
- Abstract(参考訳): 近年のシーン再構築と理解の取り組みは、自然言語を物理的な3D環境に基礎づける努力を続けてきたが、抽象的でハイレベルな指示を3Dシーンに根ざすことは依然として困難である。
ハイレベルな命令はシーン内のセマンティックな要素を明示的に呼び出すものではないかもしれないし、階層的なタスク分析と呼ばれるプロセスである、より具体的なサブタスクのセットにハイレベルなタスクを分割するプロセスでさえ環境に依存している。
本研究では,ハイレベルなタスクをグラウンド化されたサブタスクに分割することで,3次元シーングラフに接地したタスク階層を生成する最初のフレームワークであるASHiTAを提案する。
ASHiTA は LLM 支援型階層型タスク分析を代替してタスク分解を生成し,タスク駆動型3次元シーングラフ構築により環境の適切な表現を生成する。
実験の結果,ASHiTAは環境依存サブタスクに高レベルタスクを分割する際のLLMベースラインよりもはるかに優れた性能を示し,また,最先端の手法に匹敵する基礎的性能を実現することができることがわかった。
関連論文リスト
- GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering [23.459190671283487]
EQA(Embodied Question Answering)では、エージェントは、位置した質問に自信を持って答えるために、目に見えない環境の意味的な理解を探求し、発展させなければならない。
本稿では,リアルタイムな3次元メトリセマンティックシーングラフ(3DSG)とタスク関連画像をマルチモーダルメモリとして利用して視覚言語モデル(VLM)を構築する新しいアプローチであるGraphEQAを提案する。
我々は,3DSGの階層性を利用した階層的計画手法を用いて,構造化計画と意味誘導探索を行う。
論文 参考訳(メタデータ) (2024-12-19T03:04:34Z) - Task-oriented Sequential Grounding and Navigation in 3D Scenes [33.740081195089964]
3D環境における自然言語の接地は、堅牢な3Dビジョン言語アライメントを実現するための重要なステップである。
本研究では,3次元シーンにおけるタスク指向の逐次的グラウンドとナビゲーションという,新しいタスクを紹介する。
SG3Dは22,346のタスクと112,236のステップからなる大規模データセットで、4,895の現実世界の3Dシーンにまたがる。
論文 参考訳(メタデータ) (2024-08-07T18:30:18Z) - Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis [109.50718968215658]
本研究では,屋内シーンの合成を順序認識型シーケンシャル学習問題として定式化するフレームワークであるフォレスト2Seqを提案する。
クラスタリングに基づくアルゴリズムと幅優先のアルゴリズムを用いることで、フォレスト2セックは意味のある順序付けを導き、トランスフォーマーを使用してリアルな3Dシーンを自動回帰的に生成する。
論文 参考訳(メタデータ) (2024-07-07T14:32:53Z) - Embodied Instruction Following in Unknown Environments [66.60163202450954]
未知環境における複雑なタスクに対するEIF(Embodied instruction following)法を提案する。
我々は,ハイレベルなタスクプランナと低レベルな探索コントローラを含む,階層的な具体化命令に従うフレームワークを構築した。
タスクプランナに対しては、タスク完了プロセスと既知の視覚的手がかりに基づいて、人間の目標達成のための実行可能なステップバイステッププランを生成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:40Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Learning Sensorimotor Primitives of Sequential Manipulation Tasks from
Visual Demonstrations [13.864448233719598]
本稿では,低レベルポリシーと高レベルポリシーを同時に学習するニューラルネットワークベースの新しいフレームワークについて述べる。
提案手法の重要な特徴は、これらのポリシーがタスクデモの生のビデオから直接学習されることである。
ロボットアームを用いた物体操作タスクの実証実験の結果,提案するネットワークは実際の視覚的な実演から効率よく学習し,タスクを実行することができることがわかった。
論文 参考訳(メタデータ) (2022-03-08T01:36:48Z) - Learning Task Decomposition with Ordered Memory Policy Network [73.3813423684999]
OMPN(Ordered Memory Policy Network)を提案し、デモから学習することでサブタスク階層を発見する。
ompnは部分的に観測可能な環境に適用でき、高いタスク分解性能を達成できる。
私たちの視覚化は、サブタスク階層がモデルに出現できることを確認します。
論文 参考訳(メタデータ) (2021-03-19T18:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。