論文の概要: Open-Vocabulary Octree-Graph for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2411.16253v1
- Date: Mon, 25 Nov 2024 10:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:24.913677
- Title: Open-Vocabulary Octree-Graph for 3D Scene Understanding
- Title(参考訳): 3次元シーン理解のためのオープン語彙Octree-Graph
- Authors: Zhigang Wang, Yifei Su, Chenhui Li, Dong Wang, Yan Huang, Bin Zhao, Xuelong Li,
- Abstract要約: Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
- 参考スコア(独自算出の注目度): 54.11828083068082
- License:
- Abstract: Open-vocabulary 3D scene understanding is indispensable for embodied agents. Recent works leverage pretrained vision-language models (VLMs) for object segmentation and project them to point clouds to build 3D maps. Despite progress, a point cloud is a set of unordered coordinates that requires substantial storage space and does not directly convey occupancy information or spatial relation, making existing methods inefficient for downstream tasks, e.g., path planning and complex text-based object retrieval. To address these issues, we propose Octree-Graph, a novel scene representation for open-vocabulary 3D scene understanding. Specifically, a Chronological Group-wise Segment Merging (CGSM) strategy and an Instance Feature Aggregation (IFA) algorithm are first designed to get 3D instances and corresponding semantic features. Subsequently, an adaptive-octree structure is developed that stores semantics and depicts the occupancy of an object adjustably according to its shape. Finally, the Octree-Graph is constructed where each adaptive-octree acts as a graph node, and edges describe the spatial relations among nodes. Extensive experiments on various tasks are conducted on several widely-used datasets, demonstrating the versatility and effectiveness of our method.
- Abstract(参考訳): オープンボキャブラリー3Dシーン理解は、エンボディエージェントには不可欠である。
最近の研究は、オブジェクトセグメンテーションのための事前訓練された視覚言語モデル(VLM)を活用し、3Dマップを構築するために雲を向けるように投影している。
進歩にもかかわらず、ポイントクラウドは、かなりのストレージスペースを必要とし、占有情報や空間的関係を直接伝達しない無秩序な座標の集合であり、既存の手法は下流のタスク、例えばパス計画、複雑なテキストベースのオブジェクト検索に非効率的である。
これらの問題に対処するために,オープンな3Dシーン理解のための新しいシーン表現であるOctrie-Graphを提案する。
具体的には、CGSM(Cronological Group-wise Segment Merging)戦略とIFA(Instance Feature Aggregation)アルゴリズムが最初に設計され、3Dインスタンスとそれに対応するセマンティック機能を取得する。
その後、セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節する適応オクツリー構造を開発する。
最後に、各アダプティブ・オクツリーがグラフノードとして機能し、エッジがノード間の空間関係を記述するOctree-Graphが構築される。
本手法の汎用性と有効性を示すために,多種多様なタスクに対する広範囲な実験を行った。
関連論文リスト
- SG-PGM: Partial Graph Matching Network with Semantic Geometric Fusion for 3D Scene Graph Alignment and Its Downstream Tasks [14.548198408544032]
我々は3次元シーングラフアライメントを部分的なグラフマッチング問題として扱い、グラフニューラルネットワークを用いてそれを解くことを提案する。
我々は、点雲登録法で学習した幾何学的特徴を再利用し、クラスタ化された点レベルの幾何学的特徴とノードレベルの意味的特徴を関連付ける。
本稿では,3次元シーングラフのノードワイドアライメントを用いて,事前学習した点雲登録手法からマッチング候補を再重み付けする点マッチング再構成手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T15:01:58Z) - LISNeRF Mapping: LiDAR-based Implicit Mapping via Semantic Neural Fields for Large-Scale 3D Scenes [2.822816116516042]
大規模セマンティックマッピングは、屋外の自律エージェントが計画やナビゲーションといった高度なタスクを遂行するために不可欠である。
本稿では,提案するLiDAR測度のみでの暗黙的表現による大規模3次元意味再構築手法を提案する。
論文 参考訳(メタデータ) (2023-11-04T03:55:38Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。