論文の概要: SGRec3D: Self-Supervised 3D Scene Graph Learning via Object-Level Scene
Reconstruction
- arxiv url: http://arxiv.org/abs/2309.15702v2
- Date: Mon, 6 Nov 2023 10:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 20:51:40.099272
- Title: SGRec3D: Self-Supervised 3D Scene Graph Learning via Object-Level Scene
Reconstruction
- Title(参考訳): SGRec3D:オブジェクトレベルシーン再構成による自己監督型3次元グラフ学習
- Authors: Sebastian Koch, Pedro Hermosilla, Narunas Vaskevicius, Mirco Colosi,
Timo Ropinski
- Abstract要約: 本稿では,3次元シーングラフ予測のための自己教師付き事前学習手法であるSGRec3Dを提案する。
事前トレーニングを行うSGRec3Dはオブジェクト関係ラベルを必要としないため、大規模な3Dシーン理解データセットを活用できる。
我々の実験は,最近のクラウドベースの事前学習手法とは対照的に,提案した事前学習は3次元シーングラフの予測を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 16.643252717745348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of 3D scene understanding, 3D scene graphs have emerged as a new
scene representation that combines geometric and semantic information about
objects and their relationships. However, learning semantic 3D scene graphs in
a fully supervised manner is inherently difficult as it requires not only
object-level annotations but also relationship labels. While pre-training
approaches have helped to boost the performance of many methods in various
fields, pre-training for 3D scene graph prediction has received little
attention. Furthermore, we find in this paper that classical contrastive point
cloud-based pre-training approaches are ineffective for 3D scene graph
learning. To this end, we present SGRec3D, a novel self-supervised pre-training
method for 3D scene graph prediction. We propose to reconstruct the 3D input
scene from a graph bottleneck as a pretext task. Pre-training SGRec3D does not
require object relationship labels, making it possible to exploit large-scale
3D scene understanding datasets, which were off-limits for 3D scene graph
learning before. Our experiments demonstrate that in contrast to recent point
cloud-based pre-training approaches, our proposed pre-training improves the 3D
scene graph prediction considerably, which results in SOTA performance,
outperforming other 3D scene graph models by +10% on object prediction and +4%
on relationship prediction. Additionally, we show that only using a small
subset of 10% labeled data during fine-tuning is sufficient to outperform the
same model without pre-training.
- Abstract(参考訳): 3dシーン理解の分野では、3dシーングラフがオブジェクトとその関係に関する幾何学的および意味的情報を結合した新しいシーン表現として登場している。
しかし、セマンティックな3dシーングラフを完全に教師付きで学習することは、オブジェクトレベルのアノテーションだけでなく、関係ラベルも必要となるため、本質的に困難である。
プレトレーニングアプローチは様々な分野で多くのメソッドのパフォーマンスを高めるのに役立ったが、3dシーングラフ予測のためのプレトレーニングはほとんど注目されていない。
さらに,従来のコントラッシブ・クラウド・ベースの事前学習手法は3次元シーングラフ学習には有効ではないことがわかった。
そこで本研究では,3次元シーングラフ予測のための自己教師付き事前学習手法であるSGRec3Dを提案する。
本稿では,3次元入力シーンをプリテキストタスクとしてグラフボトルネックから再構成する。
事前トレーニングを行うSGRec3Dは、オブジェクト関係ラベルを必要としないため、3Dシーン理解データセットを大規模に活用することができる。
最近のpoint cloudベースの事前トレーニングアプローチとは対照的に,提案手法は3dシーングラフの予測をかなり改善し,soma性能を向上し,他の3dシーングラフモデルよりもオブジェクト予測で+10%,関係予測で+4%向上した。
さらに,微調整時に10%のラベル付きデータの小さなサブセットのみを使用することで,事前トレーニングを行わずに同じモデルに勝ることを示す。
関連論文リスト
- ESGNN: Towards Equivariant Scene Graph Neural Network for 3D Scene Understanding [2.5165775267615205]
この研究は、シーン理解のために3Dポイントクラウドからセマンティックシーングラフを生成するために、Equivariant Graph Neural Networkを実装した最初のものである。
提案手法であるESGNNは、既存の最先端手法よりも優れており、より高速な収束によるシーン推定の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-06-30T06:58:04Z) - Lang3DSG: Language-based contrastive pre-training for 3D Scene Graph
prediction [16.643252717745348]
本稿では,3次元シーングラフのための言語ベースの事前学習手法を提案する。
一般的な視覚言語モデルであるCLIPの言語エンコーダを利用して、その知識をグラフベースのネットワークに抽出する。
提案手法は,メインセマンティックな3Dシーングラフベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-10-25T09:26:16Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D
Sequences [76.28527350263012]
rgb-dフレームのシーケンスを与えられた3次元環境から意味的シーングラフを漸進的に構築する手法を提案する。
我々は、グラフニューラルネットワークを用いて、プリミティブシーンコンポーネントからpointnet機能を集約する。
提案手法は,35hzで動作する他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等の精度で,高いマージンで3dシーングラフ予測手法を上回る。
論文 参考訳(メタデータ) (2021-03-27T13:00:36Z) - PointContrast: Unsupervised Pre-training for 3D Point Cloud
Understanding [107.02479689909164]
本研究では,3次元表現学習の研究を支援することを目的とする。
教師なし事前学習が3Dシーンの大規模なソースセットに与える影響を計測する。
論文 参考訳(メタデータ) (2020-07-21T17:59:22Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。