論文の概要: Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning
- arxiv url: http://arxiv.org/abs/2503.12974v1
- Date: Mon, 17 Mar 2025 09:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:29:04.393706
- Title: Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning
- Title(参考訳): 3次元活動推論と計画の探索: 意図しない人的意図から経路対応計画へ
- Authors: Xueying Jiang, Wenhao Li, Xiaoqin Zhang, Ling Shao, Shijian Lu,
- Abstract要約: そこで本研究では,暗黙的な指示から意図した活動を推論し,ステップ間の経路や計画を伴うステップに分解する,新しい3Dタスクである3Dアクティビティ推論と計画を提案する。
まずReasonPlan3Dという,多種多様な3Dシーンを多種多様な暗黙の指示でカバーする大規模ベンチマークを構築した。
第二に、複数のステップにまたがってコンテキスト整合性を持つプログレッシブプラン生成を導入する新しいフレームワークを設計する。
- 参考スコア(独自算出の注目度): 103.24305074625106
- License:
- Abstract: 3D activity reasoning and planning has attracted increasing attention in human-robot interaction and embodied AI thanks to the recent advance in multimodal learning. However, most existing works share two constraints: 1) heavy reliance on explicit instructions with little reasoning on implicit user intention; 2) negligence of inter-step route planning on robot moves. To bridge the gaps, we propose 3D activity reasoning and planning, a novel 3D task that reasons the intended activities from implicit instructions and decomposes them into steps with inter-step routes and planning under the guidance of fine-grained 3D object shapes and locations from scene segmentation. We tackle the new 3D task from two perspectives. First, we construct ReasonPlan3D, a large-scale benchmark that covers diverse 3D scenes with rich implicit instructions and detailed annotations for multi-step task planning, inter-step route planning, and fine-grained segmentation. Second, we design a novel framework that introduces progressive plan generation with contextual consistency across multiple steps, as well as a scene graph that is updated dynamically for capturing critical objects and their spatial relations. Extensive experiments demonstrate the effectiveness of our benchmark and framework in reasoning activities from implicit human instructions, producing accurate stepwise task plans, and seamlessly integrating route planning for multi-step moves. The dataset and code will be released.
- Abstract(参考訳): 3Dアクティビティの推論と計画は、近年のマルチモーダル学習の進歩により、人間とロボットの相互作用やAIの具体化に注目が集まっている。
しかし、現存する作品の多くは2つの制約を共有している。
1) 暗黙のユーザ意図による推論がほとんどない明示的な指示に強く依存すること。
2)ロボット動作におけるステップ間経路計画の無視
このギャップを埋めるために,暗黙の指示から意図した活動を引き出す新しい3Dタスクである3Dアクティビティ推論と計画を提案し,シーンセグメンテーションから細かな3Dオブジェクトの形状や位置を指示したステップ間経路と計画でそれらを分解する。
我々は2つの視点から新しい3Dタスクに取り組む。
まず、多段階のタスク計画、ステップ間経路計画、きめ細かなセグメンテーションのための詳細なアノテーションを含む、多様な3Dシーンをカバーする大規模なベンチマークであるReasonPlan3Dを構築する。
第2に,複数のステップにまたがってコンテキスト整合性を持つプログレッシブプラン生成を実現する新しいフレームワークを設計し,重要なオブジェクトとその空間関係を動的に更新するシーングラフを設計する。
大規模な実験は、暗黙の人間の指示による行動の推論、正確な段階的なタスク計画の作成、多段階移動のための経路計画のシームレスな統合におけるベンチマークとフレームワークの有効性を実証する。
データセットとコードがリリースされる。
関連論文リスト
- Multimodal 3D Reasoning Segmentation with Complex Scenes [92.92045550692765]
シーン内の複数のオブジェクトに対する3次元推論セグメンテーションタスクを提案することで,研究ギャップを埋める。
このタスクは、オブジェクト間の3次元空間関係によって強化された3Dセグメンテーションマスクと詳細なテキスト説明を作成することができる。
さらに,ユーザ質問やテキスト出力による多目的3D推論セグメンテーションを可能にする,シンプルで効果的なMORE3Dを設計する。
論文 参考訳(メタデータ) (2024-11-21T08:22:45Z) - Task and Motion Planning for Execution in the Real [24.01204729304763]
この作業は、作業を含むタスクと動作の計画を生成するが、計画時には完全には理解できない。
実行は、タスク目標に到達するまでオフラインで計画された動きとオンライン行動を組み合わせる。
提案したフレームワークを評価するために,40の実ロボット試験とモチベーション実証を行った。
その結果、実行時間が短縮され、アクションの数が少なくなり、さまざまなギャップが生じる問題の成功率が向上した。
論文 参考訳(メタデータ) (2024-06-05T22:30:40Z) - OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクの整合性を高めるための総合的枠組みを提案する。
我々のフレームワークは、スパースクエリを使って視覚表現を3Dに上げ、圧縮する新しい3DMLLMアーキテクチャから始まります。
OmniDrive-nuScenesは、モデルの真の3次元状況認識に挑戦する新しい視覚的質問応答データセットである。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z) - Embodied Task Planning with Large Language Models [86.63533340293361]
本研究では,現場制約を考慮した地上計画のための具体的タスクにおけるTAsk Planing Agent (TaPA)を提案する。
推論の際には,オープンボキャブラリオブジェクト検出器を様々な場所で収集された多視点RGB画像に拡張することにより,シーン内の物体を検出する。
実験の結果,我々のTaPAフレームワークから生成されたプランは,LLaVAやGPT-3.5よりも大きなマージンで高い成功率が得られることがわかった。
論文 参考訳(メタデータ) (2023-07-04T17:58:25Z) - TASKOGRAPHY: Evaluating robot task planning over large 3D scene graphs [33.25317860393983]
TASKOGRAPHYは、3DSGを使った最初の大規模ロボットタスク計画ベンチマークである。
タスク条件付き3DSGスカラー化手法であるSCRUBを提案する。
また,学習ベースプランナが3DSG構造を活用できる手法であるSEEKを提案する。
論文 参考訳(メタデータ) (2022-07-11T16:51:44Z) - Roominoes: Generating Novel 3D Floor Plans From Existing 3D Rooms [22.188206636953794]
既存の3D部屋から新しい3Dフロアプランを作成するタスクを提案する。
1つは利用可能な2Dフロアプランを使用して、3Dルームの選択と変形をガイドし、もう1つは互換性のある3Dルームのセットを取得し、それらを新しいレイアウトに組み合わせることを学ぶ。
論文 参考訳(メタデータ) (2021-12-10T16:17:01Z) - Learning to Search in Task and Motion Planning with Streams [20.003445874753233]
ロボット工学におけるタスク計画問題と動作計画問題は、個別のタスク変数に対するシンボリック計画と、連続状態および動作変数に対する動作最適化を組み合わせたものである。
対象と事実の集合を最優先的に拡張する幾何学的情報に基づく記号プランナを提案する。
ブロックスタッキング操作タスクにおいて,このアルゴリズムを7DOFロボットアームに適用する。
論文 参考訳(メタデータ) (2021-11-25T15:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。