論文の概要: Intelligent Spatial Perception by Building Hierarchical 3D Scene Graphs for Indoor Scenarios with the Help of LLMs
- arxiv url: http://arxiv.org/abs/2503.15091v1
- Date: Wed, 19 Mar 2025 10:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:18.629508
- Title: Intelligent Spatial Perception by Building Hierarchical 3D Scene Graphs for Indoor Scenarios with the Help of LLMs
- Title(参考訳): LLMを用いた屋内シナリオのための階層型3次元シーングラフ構築による知的空間知覚
- Authors: Yao Cheng, Zhe Han, Fengyang Jiang, Huaizhen Wang, Fengyu Zhou, Qingshan Yin, Lei Wei,
- Abstract要約: 本稿では,Large Language Models (LLMs) を利用した室内シナリオのための階層型3次元シーングラフ構築システムを提案する。
提案するフレームワークは、3DSGで構成されており、リッチなメトリック・セマンティック情報を持つ基本層、オブジェクトノードの正確なポイントクラウド表現を特徴とするオブジェクト層、部屋、フロア、ビルディングノードの上位層で構成されている。
LLMの革新的な応用のおかげで、オブジェクトノードだけでなく、部屋ノードのような上位層のノードもインテリジェントで正確な方法でアノテートされる。
- 参考スコア(独自算出の注目度): 4.764379183672723
- License:
- Abstract: This paper addresses the high demand in advanced intelligent robot navigation for a more holistic understanding of spatial environments, by introducing a novel system that harnesses the capabilities of Large Language Models (LLMs) to construct hierarchical 3D Scene Graphs (3DSGs) for indoor scenarios. The proposed framework constructs 3DSGs consisting of a fundamental layer with rich metric-semantic information, an object layer featuring precise point-cloud representation of object nodes as well as visual descriptors, and higher layers of room, floor, and building nodes. Thanks to the innovative application of LLMs, not only object nodes but also nodes of higher layers, e.g., room nodes, are annotated in an intelligent and accurate manner. A polling mechanism for room classification using LLMs is proposed to enhance the accuracy and reliability of the room node annotation. Thorough numerical experiments demonstrate the system's ability to integrate semantic descriptions with geometric data, creating an accurate and comprehensive representation of the environment instrumental for context-aware navigation and task planning.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)を利用した屋内シナリオのための階層型3次元シーングラフ(DSG)構築システムを導入することにより,空間環境をより包括的に理解するための高度知能ロボットナビゲーションの高需要に対処する。
提案するフレームワークは、3DSGで構成されており、リッチなメトリック・セマンティック情報を持つ基本層、オブジェクトノードの正確なポイントクラウド表現を特徴とするオブジェクト層、ビジュアルディスクリプタ、部屋、フロア、ビルディングノードの上位層で構成されている。
LLMの革新的な応用のおかげで、オブジェクトノードだけでなく、部屋ノードのような上位層のノードもインテリジェントで正確な方法でアノテートされる。
LLMを用いた部屋分類のためのポーリング機構を提案し、部屋ノードアノテーションの精度と信頼性を高める。
詳細な数値実験により、意味記述を幾何学的データと統合し、コンテキスト対応ナビゲーションやタスク計画のための環境の正確かつ包括的な表現を作成することができる。
関連論文リスト
- TB-HSU: Hierarchical 3D Scene Understanding with Contextual Affordances [20.4157915852084]
本研究では,3次元階層的なシーングラフを用いて,機能的可利用性の変化と構造を学習するモデルを構築した。
様々な機能的余裕は、グラフの様々な空間的コンテキストと統合するように設計されている。
論文 参考訳(メタデータ) (2024-12-07T09:23:17Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - Go-SLAM: Grounded Object Segmentation and Localization with Gaussian Splatting SLAM [12.934788858420752]
Go-SLAMは動的環境の再構築に3DガウススティングSLAMを利用する新しいフレームワークである。
本システムは,自然言語記述によるオブジェクトの検索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T13:56:08Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Object-level 3D Semantic Mapping using a Network of Smart Edge Sensors [25.393382192511716]
我々は,分散エッジセンサのネットワークとオブジェクトレベルの情報からなる多視点3次元意味マッピングシステムを拡張した。
提案手法は,数cm以内でのポーズ推定と,実験室環境におけるセンサネットワークを用いた実環境実験により,Behaveデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-11-21T11:13:08Z) - SIENet: Spatial Information Enhancement Network for 3D Object Detection
from Point Cloud [20.84329063509459]
LiDARベースの3Dオブジェクト検出は、自動運転車に大きな影響を与える。
LiDARの固有特性の制限により、センサーから遠く離れた物体において、より少ない点が収集される。
そこで本研究では,SIENetという2段階の3次元物体検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T07:45:09Z) - Semantic and Geometric Modeling with Neural Message Passing in 3D Scene
Graphs for Hierarchical Mechanical Search [48.655167907740136]
この問題の階層的,意味的,幾何学的側面を捉えるために,3次元シーングラフ表現を用いる。
自然言語記述で指定された対象物を見つけるためのエージェントの動作を誘導する手法である階層機械探索(HMS)を紹介する。
HMSは、セマンティック関連オブジェクトを格納場所に密配置した500の3Dシーングラフのデータセットで評価されている。
論文 参考訳(メタデータ) (2020-12-07T21:04:34Z) - Campus3D: A Photogrammetry Point Cloud Benchmark for Hierarchical
Understanding of Outdoor Scene [76.4183572058063]
複数の屋外シーン理解タスクに対して,リッチな注釈付き3Dポイントクラウドデータセットを提案する。
データセットは階層型ラベルとインスタンスベースのラベルの両方でポイントワイズアノテートされている。
本稿では,3次元点雲分割のための階層的学習問題を定式化し,様々な階層間の整合性を評価することを提案する。
論文 参考訳(メタデータ) (2020-08-11T19:10:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。