論文の概要: Point2Graph: An End-to-end Point Cloud-based 3D Open-Vocabulary Scene Graph for Robot Navigation
- arxiv url: http://arxiv.org/abs/2409.10350v1
- Date: Mon, 16 Sep 2024 15:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 15:10:41.911810
- Title: Point2Graph: An End-to-end Point Cloud-based 3D Open-Vocabulary Scene Graph for Robot Navigation
- Title(参考訳): Point2Graph: ロボットナビゲーションのための3Dオープン語彙グラフ
- Authors: Yifan Xu, Ziming Luo, Qianwei Wang, Vineet Kamat, Carol Menassa,
- Abstract要約: Point2Graphは、新しいエンドツーエンドのクラウドベースのオープンな3Dシーングラフ生成フレームワークである。
部屋層では,幾何学に基づく境界検出アルゴリズムと学習に基づく領域検出とを融合して,部屋をセグメント化する利点を生かした。
さらに、オブジェクト層のためのエンドツーエンドパイプラインを作成し、3Dポイントクラウドデータのみに基づいて3Dオブジェクトを検出し分類する。
- 参考スコア(独自算出の注目度): 7.048930431483034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current open-vocabulary scene graph generation algorithms highly rely on both 3D scene point cloud data and posed RGB-D images and thus have limited applications in scenarios where RGB-D images or camera poses are not readily available. To solve this problem, we propose Point2Graph, a novel end-to-end point cloud-based 3D open-vocabulary scene graph generation framework in which the requirement of posed RGB-D image series is eliminated. This hierarchical framework contains room and object detection/segmentation and open-vocabulary classification. For the room layer, we leverage the advantage of merging the geometry-based border detection algorithm with the learning-based region detection to segment rooms and create a "Snap-Lookup" framework for open-vocabulary room classification. In addition, we create an end-to-end pipeline for the object layer to detect and classify 3D objects based solely on 3D point cloud data. Our evaluation results show that our framework can outperform the current state-of-the-art (SOTA) open-vocabulary object and room segmentation and classification algorithm on widely used real-scene datasets.
- Abstract(参考訳): 現在のオープンボキャブラリシーングラフ生成アルゴリズムは、3DシーンポイントのクラウドデータとRGB-D画像の両方に強く依存しているため、RGB-D画像やカメラのポーズが簡単に利用できないシナリオでは限定的な用途がある。
この問題を解決するために,提案するRGB-D画像系列の要求を解消する,新しいエンドツーエンドのクラウドベースの3次元オープン語彙シーングラフ生成フレームワークであるPoint2Graphを提案する。
この階層的なフレームワークは、部屋とオブジェクトの検出/セグメンテーションとオープン語彙分類を含んでいる。
部屋層では,幾何学的境界検出アルゴリズムと学習的領域検出アルゴリズムを併用してセグメントルームを抽出し,オープン語彙分類のための"Snap-Lookup"フレームワークを作成する。
さらに、オブジェクト層のためのエンドツーエンドパイプラインを作成し、3Dポイントクラウドデータのみに基づいて3Dオブジェクトを検出し分類する。
評価結果から,我々のフレームワークは,広く使用されている実シーンデータセットにおいて,現状のSOTA(Open-of-the-art-vocabulary Object)と部屋のセグメンテーションと分類アルゴリズムより優れていることが示された。
関連論文リスト
- SG-PGM: Partial Graph Matching Network with Semantic Geometric Fusion for 3D Scene Graph Alignment and Its Downstream Tasks [14.548198408544032]
我々は3次元シーングラフアライメントを部分的なグラフマッチング問題として扱い、グラフニューラルネットワークを用いてそれを解くことを提案する。
我々は、点雲登録法で学習した幾何学的特徴を再利用し、クラスタ化された点レベルの幾何学的特徴とノードレベルの意味的特徴を関連付ける。
本稿では,3次元シーングラフのノードワイドアライメントを用いて,事前学習した点雲登録手法からマッチング候補を再重み付けする点マッチング再構成手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T15:01:58Z) - Object2Scene: Putting Objects in Context for Open-Vocabulary 3D
Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。
従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。
本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文 参考訳(メタデータ) (2023-09-18T03:31:53Z) - Open-Vocabulary Point-Cloud Object Detection without 3D Annotation [62.18197846270103]
オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:22:02Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - RBGNet: Ray-based Grouping for 3D Object Detection [104.98776095895641]
本稿では,点雲からの正確な3次元物体検出のための投票型3次元検出器RBGNetフレームワークを提案する。
決定された光線群を用いて物体表面上の点方向の特徴を集約する。
ScanNet V2 と SUN RGB-D による最先端の3D 検出性能を実現する。
論文 参考訳(メタデータ) (2022-04-05T14:42:57Z) - SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D
Sequences [76.28527350263012]
rgb-dフレームのシーケンスを与えられた3次元環境から意味的シーングラフを漸進的に構築する手法を提案する。
我々は、グラフニューラルネットワークを用いて、プリミティブシーンコンポーネントからpointnet機能を集約する。
提案手法は,35hzで動作する他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等の精度で,高いマージンで3dシーングラフ予測手法を上回る。
論文 参考訳(メタデータ) (2021-03-27T13:00:36Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z) - An Overview Of 3D Object Detection [21.159668390764832]
マルチクラスオブジェクト認識を行うために,RGBデータとポイントクラウドデータの両方を用いるフレームワークを提案する。
最近リリースされたnuScenesデータセット - 大規模なデータセットには多くのデータフォーマットが含まれています - をトレーニングし、提案したアーキテクチャを評価します。
論文 参考訳(メタデータ) (2020-10-29T14:04:50Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z) - Learning to Segment 3D Point Clouds in 2D Image Space [20.119802932358333]
2次元画像空間に3次元点雲を効率よく投影する方法を示す。
U-Netのような従来の2D畳み込みニューラルネットワーク(CNN)はセグメンテーションに適用できる。
論文 参考訳(メタデータ) (2020-03-12T03:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。