論文の概要: Task-oriented Sequential Grounding and Navigation in 3D Scenes
- arxiv url: http://arxiv.org/abs/2408.04034v2
- Date: Sat, 08 Mar 2025 01:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:43.731036
- Title: Task-oriented Sequential Grounding and Navigation in 3D Scenes
- Title(参考訳): 3次元シーンにおけるタスク指向シーケンスグラウンドとナビゲーション
- Authors: Zhuofan Zhang, Ziyu Zhu, Junhao Li, Pengxiang Li, Tianxu Wang, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li,
- Abstract要約: 3D環境における自然言語の接地は、堅牢な3Dビジョン言語アライメントを実現するための重要なステップである。
本研究では,3次元シーンにおけるタスク指向の逐次的グラウンドとナビゲーションという,新しいタスクを紹介する。
SG3Dは22,346のタスクと112,236のステップからなる大規模データセットで、4,895の現実世界の3Dシーンにまたがる。
- 参考スコア(独自算出の注目度): 33.740081195089964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding natural language in 3D environments is a critical step toward achieving robust 3D vision-language alignment. Current datasets and models for 3D visual grounding predominantly focus on identifying and localizing objects from static, object-centric descriptions. These approaches do not adequately address the dynamic and sequential nature of task-oriented scenarios. In this work, we introduce a novel task: Task-oriented Sequential Grounding and Navigation in 3D Scenes, where models must interpret step-by-step instructions for daily activities by either localizing a sequence of target objects in indoor scenes or navigating toward them within a 3D simulator. To facilitate this task, we present SG3D, a large-scale dataset comprising 22,346 tasks with 112,236 steps across 4,895 real-world 3D scenes. The dataset is constructed by combining RGB-D scans from various 3D scene datasets with an automated task generation pipeline, followed by human verification for quality assurance. We benchmark contemporary methods on SG3D, revealing the significant challenges in understanding task-oriented context across multiple steps. Furthermore, we propose SG-LLM, a state-of-the-art approach leveraging a stepwise grounding paradigm to tackle the sequential grounding task. Our findings underscore the need for further research to advance the development of more capable and context-aware embodied agents.
- Abstract(参考訳): 3D環境における自然言語の接地は、堅牢な3Dビジョン言語アライメントを実現するための重要なステップである。
現在の3Dビジュアルグラウンドのためのデータセットとモデルは、主に静的なオブジェクト中心の記述からオブジェクトを特定し、ローカライズすることに焦点を当てている。
これらのアプローチは、タスク指向のシナリオの動的およびシーケンシャルな性質を適切に解決しない。
本研究は,3次元シーンにおけるタスク指向の逐次的接地とナビゲーション(Sequential Grounding and Navigation in 3D Scenes)を提案する。
この作業を容易にするために,22,346のタスクからなる大規模データセットSG3Dと,4,895の現実世界の3Dシーンを112,236ステップで比較した。
データセットは、さまざまな3DシーンデータセットからのRGB-Dスキャンと自動タスク生成パイプラインを組み合わせて構築され、次いで品質保証のための人間による検証が行われる。
我々はSG3Dの現代手法をベンチマークし、複数のステップでタスク指向のコンテキストを理解する上で重要な課題を明らかにした。
さらに,SG-LLMを提案する。SG-LLMは,ステップワイズグラウンド化のパラダイムを活用し,逐次グラウンド化の課題に対処する手法である。
以上の知見は,より有能でコンテキスト対応な実施剤の開発を促進するために,さらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- DSM: Building A Diverse Semantic Map for 3D Visual Grounding [4.89669292144966]
本研究では,3次元視覚接地作業を行うロボットエージェントを対象とした多種多様な意味マップ構築手法を提案する。
本手法は多モード大言語モデル(VLM)を利用してシーン内のオブジェクトの潜在意味的属性と関係を捕捉し,幾何学的スライディングウインドウマップ構築戦略により,DSM(Diverse Semantic Map)を作成する。
実験結果から,本手法はセマンティックセグメンテーションや3次元視覚グラウンディングといったタスクにおける現在の手法よりも優れており,特に,最先端の手法と比較して総合的に優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-11T07:18:42Z) - S2O: Static to Openable Enhancement for Articulated 3D Objects [20.310491257189422]
本稿では,静的な3次元オブジェクトを静的なオブジェクトから生成するS2Oタスクを紹介する。
この課題に対処するための統一的なフレームワークを定式化し、オープンな3Dオブジェクトのデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-09-27T16:34:13Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - Multi3DRefer: Grounding Text Description to Multiple 3D Objects [15.54885309441946]
本稿では,自然言語記述を用いて,現実の3Dシーンにおけるフレキシブルなオブジェクトをローカライズするタスクを紹介する。
我々のデータセットには1609個のオブジェクトの61926の記述が含まれており、0、単、複数個の対象オブジェクトがそれぞれの記述によって参照される。
コントラスト学習による提案をオンラインでレンダリングすることで,CLIPの2D機能を活用したより良いベースラインを構築する。
論文 参考訳(メタデータ) (2023-09-11T06:03:39Z) - 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment [44.00343134325925]
3D-VisTAは、3Dビジョンとテキストアライメントのための事前訓練されたトランスフォーマーである。
ScanScribeは、3D-VL事前トレーニングのための最初の大規模3Dシーンテキストペアデータセットである。
論文 参考訳(メタデータ) (2023-08-08T15:59:17Z) - Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene
Scale and Realism Tradeoffs for ObjectGoal Navigation [70.82403156865057]
本研究では,合成3次元シーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。
我々の実験によると、我々の小規模データセットで訓練されたエージェントは、はるかに大きなデータセットで訓練されたエージェントと一致するか、より優れています。
論文 参考訳(メタデータ) (2023-06-20T05:07:23Z) - 3D-Aware Object Goal Navigation via Simultaneous Exploration and
Identification [19.125633699422117]
本稿では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。
私たちのフレームワークは,Matterport3DとGibsonのデータセット上で,すべてのモジュールベースのメソッドの中で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-12-01T07:55:56Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。