論文の概要: Task-oriented Sequential Grounding in 3D Scenes
- arxiv url: http://arxiv.org/abs/2408.04034v1
- Date: Wed, 7 Aug 2024 18:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:29:51.383142
- Title: Task-oriented Sequential Grounding in 3D Scenes
- Title(参考訳): 3次元シーンにおけるタスク指向シーケンスグラウンド
- Authors: Zhuofan Zhang, Ziyu Zhu, Pengxiang Li, Tengyu Liu, Xiaojian Ma, Yixin Chen, Baoxiong Jia, Siyuan Huang, Qing Li,
- Abstract要約: 本稿では,3次元シーンにおけるタスク指向の逐次グラウンド(Sequential Grounding)を提案する。
エージェントは、屋内のシーンにターゲットオブジェクトのシーケンスを配置することで、日々の活動を完了するための詳細なステップバイステップの指示に従う必要がある。
SG3Dは22,346のタスクと112,236のステップが4,895の現実世界の3Dシーンにまたがる大規模データセットである。
- 参考スコア(独自算出の注目度): 35.90034571439091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding natural language in physical 3D environments is essential for the advancement of embodied artificial intelligence. Current datasets and models for 3D visual grounding predominantly focus on identifying and localizing objects from static, object-centric descriptions. These approaches do not adequately address the dynamic and sequential nature of task-oriented grounding necessary for practical applications. In this work, we propose a new task: Task-oriented Sequential Grounding in 3D scenes, wherein an agent must follow detailed step-by-step instructions to complete daily activities by locating a sequence of target objects in indoor scenes. To facilitate this task, we introduce SG3D, a large-scale dataset containing 22,346 tasks with 112,236 steps across 4,895 real-world 3D scenes. The dataset is constructed using a combination of RGB-D scans from various 3D scene datasets and an automated task generation pipeline, followed by human verification for quality assurance. We adapted three state-of-the-art 3D visual grounding models to the sequential grounding task and evaluated their performance on SG3D. Our results reveal that while these models perform well on traditional benchmarks, they face significant challenges with task-oriented sequential grounding, underscoring the need for further research in this area.
- Abstract(参考訳): 物理的3次元環境における自然言語の接地は、具体的人工知能の発展に不可欠である。
現在の3Dビジュアルグラウンドのためのデータセットとモデルは、主に静的なオブジェクト中心の記述からオブジェクトを特定し、ローカライズすることに焦点を当てている。
これらのアプローチは、実用的な応用に必要なタスク指向グラウンドディングの動的かつシーケンシャルな性質を適切に解決するものではない。
本研究では,3次元シーンにおけるタスク指向の逐次グラウンド(Sequential Grounding in 3D scene)を提案する。
SG3Dは22,346のタスクと112,236のステップを4,895の現実世界の3Dシーンに収めた大規模データセットである。
データセットは、さまざまな3DシーンデータセットからRGB-Dスキャンと自動タスク生成パイプラインを組み合わせて構築され、続いて品質保証のための人間による検証が行われる。
我々は3つの最先端3次元視覚接地モデルを逐次接地課題に適用し,SG3Dの性能評価を行った。
その結果、これらのモデルは従来のベンチマークでよく機能するが、タスク指向のシーケンシャルグラウンドリングにおいて重大な課題に直面しており、この分野におけるさらなる研究の必要性が強調されている。
関連論文リスト
- S2O: Static to Openable Enhancement for Articulated 3D Objects [20.310491257189422]
本稿では,静的な3次元オブジェクトを静的なオブジェクトから生成するS2Oタスクを紹介する。
この課題に対処するための統一的なフレームワークを定式化し、オープンな3Dオブジェクトのデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-09-27T16:34:13Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment [44.00343134325925]
3D-VisTAは、3Dビジョンとテキストアライメントのための事前訓練されたトランスフォーマーである。
ScanScribeは、3D-VL事前トレーニングのための最初の大規模3Dシーンテキストペアデータセットである。
論文 参考訳(メタデータ) (2023-08-08T15:59:17Z) - Habitat Synthetic Scenes Dataset (HSSD-200): An Analysis of 3D Scene
Scale and Realism Tradeoffs for ObjectGoal Navigation [70.82403156865057]
本研究では,合成3次元シーン・データセット・スケールとリアリズムが,オブジェクトの探索とナビゲートを行う具体的エージェントの訓練作業に与える影響について検討する。
我々の実験によると、我々の小規模データセットで訓練されたエージェントは、はるかに大きなデータセットで訓練されたエージェントと一致するか、より優れています。
論文 参考訳(メタデータ) (2023-06-20T05:07:23Z) - 3D-Aware Object Goal Navigation via Simultaneous Exploration and
Identification [19.125633699422117]
本稿では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。
私たちのフレームワークは,Matterport3DとGibsonのデータセット上で,すべてのモジュールベースのメソッドの中で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-12-01T07:55:56Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。