論文の概要: Lang3DSG: Language-based contrastive pre-training for 3D Scene Graph
prediction
- arxiv url: http://arxiv.org/abs/2310.16494v1
- Date: Wed, 25 Oct 2023 09:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 15:33:48.939820
- Title: Lang3DSG: Language-based contrastive pre-training for 3D Scene Graph
prediction
- Title(参考訳): Lang3DSG:3次元シーングラフ予測のための言語ベースのコントラスト事前学習
- Authors: Sebastian Koch, Pedro Hermosilla, Narunas Vaskevicius, Mirco Colosi,
Timo Ropinski
- Abstract要約: 本稿では,3次元シーングラフのための言語ベースの事前学習手法を提案する。
一般的な視覚言語モデルであるCLIPの言語エンコーダを利用して、その知識をグラフベースのネットワークに抽出する。
提案手法は,メインセマンティックな3Dシーングラフベンチマークにおいて,最先端の結果を達成している。
- 参考スコア(独自算出の注目度): 16.643252717745348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: D scene graphs are an emerging 3D scene representation, that models both the
objects present in the scene as well as their relationships. However, learning
3D scene graphs is a challenging task because it requires not only object
labels but also relationship annotations, which are very scarce in datasets.
While it is widely accepted that pre-training is an effective approach to
improve model performance in low data regimes, in this paper, we find that
existing pre-training methods are ill-suited for 3D scene graphs. To solve this
issue, we present the first language-based pre-training approach for 3D scene
graphs, whereby we exploit the strong relationship between scene graphs and
language. To this end, we leverage the language encoder of CLIP, a popular
vision-language model, to distill its knowledge into our graph-based network.
We formulate a contrastive pre-training, which aligns text embeddings of
relationships (subject-predicate-object triplets) and predicted 3D graph
features. Our method achieves state-of-the-art results on the main semantic 3D
scene graph benchmark by showing improved effectiveness over pre-training
baselines and outperforming all the existing fully supervised scene graph
prediction methods by a significant margin. Furthermore, since our scene graph
features are language-aligned, it allows us to query the language space of the
features in a zero-shot manner. In this paper, we show an example of utilizing
this property of the features to predict the room type of a scene without
further training.
- Abstract(参考訳): Dシーングラフは、シーンに存在するオブジェクトとそれらの関係の両方をモデル化する、新たな3Dシーン表現である。
しかし、3Dシーングラフの学習は、オブジェクトラベルだけでなく、データセットでは非常に少ない関係アノテーションを必要とするため、難しい作業である。
低データ環境におけるモデル性能向上のためには,事前学習が有効な手法であると広く認識されているが,本稿では,既存の事前学習手法が3次元シーングラフには不適当であることを示す。
そこで本研究では,3次元シーングラフに対する最初の言語ベース事前学習手法を提案し,シーングラフと言語間の強い関係を生かした。
この目的のために、人気のあるビジョン言語モデルであるCLIPの言語エンコーダを利用して、その知識をグラフベースのネットワークに抽出する。
我々は,関係のテキスト埋め込み(主観-述語-対象のトリプレット)と予測する3dグラフの特徴を整合させた,コントラスト的事前学習を定式化する。
本手法は,事前学習ベースラインよりも精度が向上し,既存の全教師付きシーングラフ予測手法を有意差で上回って,主意味3dシーングラフベンチマークの最先端結果を得る。
さらに、シーングラフ機能は言語に整合しているので、ゼロショットで機能の言語空間を問い合わせることができます。
本稿では,このような特徴を生かして,さらなる訓練を行わずにシーンの部屋タイプを予測する例を示す。
関連論文リスト
- ESGNN: Towards Equivariant Scene Graph Neural Network for 3D Scene Understanding [2.5165775267615205]
この研究は、シーン理解のために3Dポイントクラウドからセマンティックシーングラフを生成するために、Equivariant Graph Neural Networkを実装した最初のものである。
提案手法であるESGNNは、既存の最先端手法よりも優れており、より高速な収束によるシーン推定の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-06-30T06:58:04Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - SGRec3D: Self-Supervised 3D Scene Graph Learning via Object-Level Scene
Reconstruction [16.643252717745348]
本稿では,3次元シーングラフ予測のための自己教師付き事前学習手法であるSGRec3Dを提案する。
事前トレーニングを行うSGRec3Dはオブジェクト関係ラベルを必要としないため、大規模な3Dシーン理解データセットを活用できる。
我々の実験は,最近のクラウドベースの事前学習手法とは対照的に,提案した事前学習は3次元シーングラフの予測を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-09-27T14:45:29Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D
Sequences [76.28527350263012]
rgb-dフレームのシーケンスを与えられた3次元環境から意味的シーングラフを漸進的に構築する手法を提案する。
我々は、グラフニューラルネットワークを用いて、プリミティブシーンコンポーネントからpointnet機能を集約する。
提案手法は,35hzで動作する他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等の精度で,高いマージンで3dシーングラフ予測手法を上回る。
論文 参考訳(メタデータ) (2021-03-27T13:00:36Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。