論文の概要: Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with
Queryable Objects and Open-Set Relationships
- arxiv url: http://arxiv.org/abs/2402.12259v1
- Date: Mon, 19 Feb 2024 16:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 15:32:32.838882
- Title: Open3DSG: Open-Vocabulary 3D Scene Graphs from Point Clouds with
Queryable Objects and Open-Set Relationships
- Title(参考訳): Open3DSG: クエリ可能なオブジェクトとオープンセット関係を持つポイントクラウドからのオープン語彙3Dシーングラフ
- Authors: Sebastian Koch, Narunas Vaskevicius, Mirco Colosi, Pedro Hermosilla,
Timo Ropinski
- Abstract要約: ラベル付きシーングラフデータを必要としないオープンな世界で3次元シーングラフを学習するための代替手法であるOpen3DSGを提案する。
我々は,3次元シーングラフ予測バックボーンの機能を,強力なオープンワールド2Dビジョン言語基盤モデルの特徴空間と組み合わせた。
- 参考スコア(独自算出の注目度): 16.643252717745348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current approaches for 3D scene graph prediction rely on labeled datasets to
train models for a fixed set of known object classes and relationship
categories. We present Open3DSG, an alternative approach to learn 3D scene
graph prediction in an open world without requiring labeled scene graph data.
We co-embed the features from a 3D scene graph prediction backbone with the
feature space of powerful open world 2D vision language foundation models. This
enables us to predict 3D scene graphs from 3D point clouds in a zero-shot
manner by querying object classes from an open vocabulary and predicting the
inter-object relationships from a grounded LLM with scene graph features and
queried object classes as context. Open3DSG is the first 3D point cloud method
to predict not only explicit open-vocabulary object classes, but also open-set
relationships that are not limited to a predefined label set, making it
possible to express rare as well as specific objects and relationships in the
predicted 3D scene graph. Our experiments show that Open3DSG is effective at
predicting arbitrary object classes as well as their complex inter-object
relationships describing spatial, supportive, semantic and comparative
relationships.
- Abstract(参考訳): 3Dシーングラフ予測の現在のアプローチは、既知のオブジェクトクラスと関係カテゴリの固定セットのモデルをトレーニングするためのラベル付きデータセットに依存している。
ラベル付きシーングラフデータを必要としないオープンな世界で3次元シーングラフを学習するための代替手法Open3DSGを提案する。
我々は,3次元シーングラフ予測バックボーンの機能を,強力なオープンワールド2Dビジョン言語基盤モデルの特徴空間と組み合わせた。
これにより、オープンな語彙からオブジェクトクラスを問合せし、シーングラフの特徴を持つ接地LLMからオブジェクト間の関係をコンテキストとして予測することで、ゼロショットで3Dポイントクラウドから3Dシーングラフを予測できる。
Open3DSGは、明示的なオープン語彙オブジェクトクラスだけでなく、事前に定義されたラベルセットに制限されないオープンセットの関係を予測する最初の3Dポイントクラウドメソッドである。
実験の結果,Open3DSGは任意のオブジェクトクラスや,空間的,支援的,意味的,比較的な関係を記述した複雑なオブジェクト間関係を予測できることがわかった。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - SGRec3D: Self-Supervised 3D Scene Graph Learning via Object-Level Scene
Reconstruction [16.643252717745348]
本稿では,3次元シーングラフ予測のための自己教師付き事前学習手法であるSGRec3Dを提案する。
事前トレーニングを行うSGRec3Dはオブジェクト関係ラベルを必要としないため、大規模な3Dシーン理解データセットを活用できる。
我々の実験は,最近のクラウドベースの事前学習手法とは対照的に,提案した事前学習は3次元シーングラフの予測を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-09-27T14:45:29Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - Free-form Description Guided 3D Visual Graph Network for Object
Grounding in Point Cloud [39.055928838826226]
3dオブジェクトのグラウンド化は、フリーフォーム言語記述に基づいて、生のポイントクラウドシーンで最も関連するターゲットオブジェクトを見つけることを目的としている。
豊かな構造と長距離句相関を捉えるための言語シーングラフモジュールを提案する。
次に,オブジェクト-オブジェクト間およびオブジェクト-シーン間共起関係を抽出するために,多レベル3次元提案関係グラフモジュールを提案する。
論文 参考訳(メタデータ) (2021-03-30T14:22:36Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。