論文の概要: TB-HSU: Hierarchical 3D Scene Understanding with Contextual Affordances
- arxiv url: http://arxiv.org/abs/2412.05596v2
- Date: Mon, 24 Feb 2025 10:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:47:39.345873
- Title: TB-HSU: Hierarchical 3D Scene Understanding with Contextual Affordances
- Title(参考訳): TB-HSU:コンテキストアフォーダンスを用いた階層型3次元シーン理解
- Authors: Wenting Xu, Viorela Ila, Luping Zhou, Craig T. Jin,
- Abstract要約: 本研究では,3次元階層的なシーングラフを用いて,機能的可利用性の変化と構造を学習するモデルを構築した。
様々な機能的余裕は、グラフの様々な空間的コンテキストと統合するように設計されている。
- 参考スコア(独自算出の注目度): 20.4157915852084
- License:
- Abstract: The concept of function and affordance is a critical aspect of 3D scene understanding and supports task-oriented objectives. In this work, we develop a model that learns to structure and vary functional affordance across a 3D hierarchical scene graph representing the spatial organization of a scene. The varying functional affordance is designed to integrate with the varying spatial context of the graph. More specifically, we develop an algorithm that learns to construct a 3D hierarchical scene graph (3DHSG) that captures the spatial organization of the scene. Starting from segmented object point clouds and object semantic labels, we develop a 3DHSG with a top node that identifies the room label, child nodes that define local spatial regions inside the room with region-specific affordances, and grand-child nodes indicating object locations and object-specific affordances. To support this work, we create a custom 3DHSG dataset that provides ground truth data for local spatial regions with region-specific affordances and also object-specific affordances for each object. We employ a transformer-based model to learn the 3DHSG. We use a multi-task learning framework that learns both room classification and learns to define spatial regions within the room with region-specific affordances. Our work improves on the performance of state-of-the-art baseline models and shows one approach for applying transformer models to 3D scene understanding and the generation of 3DHSGs that capture the spatial organization of a room. The code and dataset are publicly available.
- Abstract(参考訳): 機能と余裕の概念は3Dシーン理解の重要な側面であり、タスク指向の目的をサポートする。
本研究では,シーンの空間的構造を表す3次元階層的なシーングラフを用いて,機能的余裕度と構造を学習するモデルを開発する。
様々な機能的余裕は、グラフの様々な空間的コンテキストと統合するように設計されている。
具体的には,3次元階層的なシーングラフ(3DHSG)の構築を学習し,シーンの空間的構造を捉えるアルゴリズムを開発する。
セグメント化されたオブジェクトポイントクラウドとオブジェクトセマンティックラベルから始めて、部屋のラベルを識別するトップノードを備えた3DHSG、部屋内のローカル空間領域を定義する子ノードと、オブジェクトの位置とオブジェクト固有の価格を示す孫ノードを開発する。
この作業を支援するために,局所空間領域の真理データと,各オブジェクトに対する対象固有価格データを提供する,独自の3DHSGデータセットを構築した。
3DHSGの学習にはトランスフォーマーモデルを用いる。
部屋の分類の双方を学習し、部屋内の空間領域を定義するマルチタスク学習フレームワークを用いる。
本研究は,最先端のベースラインモデルの性能を改善し,3次元シーン理解にトランスフォーマーモデルを適用するための一手法と,部屋の空間構造を捉える3DHSGの生成について述べる。
コードとデータセットは公開されている。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - SceneHGN: Hierarchical Graph Networks for 3D Indoor Scene Generation
with Fine-Grained Geometry [92.24144643757963]
3D屋内シーンは、インテリアデザインからゲーム、バーチャルおよび拡張現実に至るまで、コンピュータグラフィックスで広く使われている。
高品質な3D屋内シーンは、専門知識が必要であり、手動で高品質な3D屋内シーンを設計するのに時間を要する。
SCENEHGNは3次元屋内シーンの階層的なグラフネットワークであり,部屋レベルからオブジェクトレベルまでの全階層を考慮し,最後にオブジェクト部分レベルに展開する。
提案手法は, 立体形状の細かな家具を含む, 可塑性3次元室内容を直接生成し, 直接的に生成することができる。
論文 参考訳(メタデータ) (2023-02-16T15:31:59Z) - Semantic and Geometric Modeling with Neural Message Passing in 3D Scene
Graphs for Hierarchical Mechanical Search [48.655167907740136]
この問題の階層的,意味的,幾何学的側面を捉えるために,3次元シーングラフ表現を用いる。
自然言語記述で指定された対象物を見つけるためのエージェントの動作を誘導する手法である階層機械探索(HMS)を紹介する。
HMSは、セマンティック関連オブジェクトを格納場所に密配置した500の3Dシーングラフのデータセットで評価されている。
論文 参考訳(メタデータ) (2020-12-07T21:04:34Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。