論文の概要: SGFormer: Semantic Graph Transformer for Point Cloud-based 3D Scene
Graph Generation
- arxiv url: http://arxiv.org/abs/2303.11048v3
- Date: Wed, 20 Dec 2023 14:11:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 22:25:33.502178
- Title: SGFormer: Semantic Graph Transformer for Point Cloud-based 3D Scene
Graph Generation
- Title(参考訳): sgformer:ポイントクラウドベースの3dシーングラフ生成のためのセマンティックグラフトランスフォーマ
- Authors: Changsheng Lv, Mengshi Qi, Xia Li, Zhengyuan Yang, Huadong Ma
- Abstract要約: 本稿では,ポイントクラウドベースの3Dシーングラフ生成のためのSGFormer,Semantic Graph TransFormerという新しいモデルを提案する。
このタスクは、ポイントクラウドベースのシーンをセマンティックな構造グラフに解析することを目的としている。
- 参考スコア(独自算出の注目度): 46.14140601855313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel model called SGFormer, Semantic Graph
TransFormer for point cloud-based 3D scene graph generation. The task aims to
parse a point cloud-based scene into a semantic structural graph, with the core
challenge of modeling the complex global structure. Existing methods based on
graph convolutional networks (GCNs) suffer from the over-smoothing dilemma and
can only propagate information from limited neighboring nodes. In contrast,
SGFormer uses Transformer layers as the base building block to allow global
information passing, with two types of newly-designed layers tailored for the
3D scene graph generation task. Specifically, we introduce the graph embedding
layer to best utilize the global information in graph edges while maintaining
comparable computation costs. Furthermore, we propose the semantic injection
layer to leverage linguistic knowledge from large-scale language model (i.e.,
ChatGPT), to enhance objects' visual features. We benchmark our SGFormer on the
established 3DSSG dataset and achieve a 40.94% absolute improvement in
relationship prediction's R@50 and an 88.36% boost on the subset with complex
scenes over the state-of-the-art. Our analyses further show SGFormer's
superiority in the long-tail and zero-shot scenarios. Our source code is
available at https://github.com/Andy20178/SGFormer.
- Abstract(参考訳): 本稿では,ポイントクラウドを用いた3次元シーングラフ生成のためのSGFormer, Semantic Graph TransFormerという新しいモデルを提案する。
このタスクは、ポイントクラウドベースのシーンをセマンティックな構造グラフに解析することを目的としている。
グラフ畳み込みネットワーク(GCN)に基づく既存の手法は、過度にスムーズなジレンマに悩まされ、限られた隣接ノードからの情報のみを伝搬することができる。
対照的に、sgformerは3dシーングラフ生成タスク用に新たに設計された2つのレイヤを備えたグローバル情報転送を可能にするために、トランスフォーマー層をベースビルディングブロックとして使用する。
具体的には,グラフエッジのグローバルな情報を利用するためにグラフ埋め込み層を導入し,計算コストを比較検討する。
さらに,大規模言語モデル(chatgpt)からの言語知識を活用し,オブジェクトの視覚機能を高めるための意味注入層を提案する。
我々は、確立された3DSSGデータセット上でSGFormerをベンチマークし、関係予測のR@50の40.94%の絶対的な改善と、最先端の複雑なシーンを持つサブセットの88.36%のアップを達成した。
さらに,SGFormerの長テールおよびゼロショットシナリオにおける優位性を示す。
ソースコードはhttps://github.com/andy20178/sgformerから入手できます。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding [8.32401190051443]
本稿では,3次元点群からセマンティックなシーングラフを生成するEquivariant Scene Graph Neural Network (ESGNN) の実装について述べる。
我々の組み合わせアーキテクチャは、時間等変Scene Graph Neural Network (TESGNN) と呼ばれ、シーン推定精度において既存の最先端手法を超えるだけでなく、より高速な収束を実現する。
論文 参考訳(メタデータ) (2024-11-15T15:39:04Z) - Graph Transformer GANs with Graph Masked Modeling for Architectural
Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。
また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:36:38Z) - Instance-incremental Scene Graph Generation from Real-world Point Clouds
via Normalizing Flows [9.4858987199432]
ポイントクラウドのシーンが与えられ、それをグラフとして表現し、新しいインスタンスを自動的に増加させます。
シーンのオブジェクトレイアウトを示すグラフが最終的に生成される。
拡張現実のような視覚ベースのアプリケーションにおいて、新しい3Dオブジェクトを現実世界のシーンに挿入する際のガイドとなる。
論文 参考訳(メタデータ) (2023-02-21T03:34:15Z) - Hierarchical Graph Networks for 3D Human Pose Estimation [50.600944798627786]
最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されたグラフ構造を利用する傾向がある。
この骨格トポロジーは体の構造を反映するには小さすぎるため、重度の2次元から3次元のあいまいさに悩まされていると我々は主張する。
本稿では,これらの弱点を克服するために,新しいグラフ畳み込みネットワークアーキテクチャである階層グラフネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T15:09:03Z) - Local Augmentation for Graph Neural Networks [78.48812244668017]
本稿では,局所的な部分グラフ構造によりノード特性を向上する局所拡張を提案する。
局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。
論文 参考訳(メタデータ) (2021-09-08T18:10:08Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Exploiting Local Geometry for Feature and Graph Construction for Better
3D Point Cloud Processing with Graph Neural Networks [22.936590869919865]
グラフニューラルネットワークの一般枠組みにおける点表現と局所近傍グラフ構築の改善を提案する。
提案されたネットワークは、トレーニングの収束を高速化する。
分類のための40%のより少ないエポック。
論文 参考訳(メタデータ) (2021-03-28T21:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。