論文の概要: Open-Vocabulary Indoor Object Grounding with 3D Hierarchical Scene Graph
- arxiv url: http://arxiv.org/abs/2507.12123v1
- Date: Wed, 16 Jul 2025 10:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.359535
- Title: Open-Vocabulary Indoor Object Grounding with 3D Hierarchical Scene Graph
- Title(参考訳): 3次元階層的シーングラフを用いたオープンボキャブラリ屋内物体のグラウンドリング
- Authors: Sergey Linok, Gleb Naumov,
- Abstract要約: OVIGo-3DHSGは階層的なシーングラフ上の広い屋内環境を表す。
階層的表現は、床、部屋、場所、オブジェクト間の空間関係を明示的にモデル化する。
提案手法は,既存の手法と比較して,効率的なシーン理解とロバストなオブジェクトグラウンド化を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose OVIGo-3DHSG method - Open-Vocabulary Indoor Grounding of objects using 3D Hierarchical Scene Graph. OVIGo-3DHSG represents an extensive indoor environment over a Hierarchical Scene Graph derived from sequences of RGB-D frames utilizing a set of open-vocabulary foundation models and sensor data processing. The hierarchical representation explicitly models spatial relations across floors, rooms, locations, and objects. To effectively address complex queries involving spatial reference to other objects, we integrate the hierarchical scene graph with a Large Language Model for multistep reasoning. This integration leverages inter-layer (e.g., room-to-object) and intra-layer (e.g., object-to-object) connections, enhancing spatial contextual understanding. We investigate the semantic and geometry accuracy of hierarchical representation on Habitat Matterport 3D Semantic multi-floor scenes. Our approach demonstrates efficient scene comprehension and robust object grounding compared to existing methods. Overall OVIGo-3DHSG demonstrates strong potential for applications requiring spatial reasoning and understanding of indoor environments. Related materials can be found at https://github.com/linukc/OVIGo-3DHSG.
- Abstract(参考訳): 我々は,OVIGo-3DHSG法を提案する。
OVIGo-3DHSGは、オープン語彙基礎モデルとセンサデータ処理のセットを用いて、RGB-Dフレームのシーケンスから派生した階層的シーングラフ上の広い屋内環境を表す。
階層的表現は、床、部屋、場所、オブジェクト間の空間関係を明示的にモデル化する。
本研究では,他のオブジェクトへの空間参照を含む複雑なクエリに効果的に対処するために,階層的なシーングラフと大規模言語モデルを統合して多段階推論を行う。
この統合は、層間(例えば、ルーム・トゥ・オブジェクト)と層間(例えば、オブジェクト・トゥ・オブジェクト)の接続を活用し、空間的コンテキスト理解を強化する。
本研究では,ハビタット・マターポート3次元セマンティック・マルチフロアシーンにおける階層表現の意味的および幾何学的精度について検討する。
提案手法は,既存の手法と比較して,効率的なシーン理解とロバストなオブジェクトグラウンド化を実証する。
OVIGo-3DHSGは、空間的推論と屋内環境の理解を必要とするアプリケーションに強い可能性を示す。
関連資料はhttps://github.com/linukc/OVIGo-3DHSGで見ることができる。
関連論文リスト
- Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Intelligent Spatial Perception by Building Hierarchical 3D Scene Graphs for Indoor Scenarios with the Help of LLMs [4.764379183672723]
本稿では,Large Language Models (LLMs) を利用した室内シナリオのための階層型3次元シーングラフ構築システムを提案する。
提案するフレームワークは、3DSGで構成されており、リッチなメトリック・セマンティック情報を持つ基本層、オブジェクトノードの正確なポイントクラウド表現を特徴とするオブジェクト層、部屋、フロア、ビルディングノードの上位層で構成されている。
LLMの革新的な応用のおかげで、オブジェクトノードだけでなく、部屋ノードのような上位層のノードもインテリジェントで正確な方法でアノテートされる。
論文 参考訳(メタデータ) (2025-03-19T10:40:28Z) - TB-HSU: Hierarchical 3D Scene Understanding with Contextual Affordances [20.4157915852084]
本研究では,3次元階層的なシーングラフを用いて,機能的可利用性の変化と構造を学習するモデルを構築した。
様々な機能的余裕は、グラフの様々な空間的コンテキストと統合するように設計されている。
論文 参考訳(メタデータ) (2024-12-07T09:23:17Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Semantic and Geometric Modeling with Neural Message Passing in 3D Scene
Graphs for Hierarchical Mechanical Search [48.655167907740136]
この問題の階層的,意味的,幾何学的側面を捉えるために,3次元シーングラフ表現を用いる。
自然言語記述で指定された対象物を見つけるためのエージェントの動作を誘導する手法である階層機械探索(HMS)を紹介する。
HMSは、セマンティック関連オブジェクトを格納場所に密配置した500の3Dシーングラフのデータセットで評価されている。
論文 参考訳(メタデータ) (2020-12-07T21:04:34Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。