論文の概要: Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2303.11048v1
- Date: Mon, 20 Mar 2023 11:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 15:46:59.945346
- Title: Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation
- Title(参考訳): ポイントクラウドを用いた3dシーングラフ生成のための再訪トランスフォーマー
- Authors: Changsheng Lv, Mengshi Qi, Xia Li, Zhengyuan Yang, Huadong Ma
- Abstract要約: 3次元シーングラフ生成タスクに対して意味グラフ変換器(SGT)を提案する。
我々のSGTはTransformerレイヤをベースビルディングブロックとして使用し、グローバルな情報転送を可能にしています。
我々は、確立された3DSSGベンチマークでSGTをベンチマークし、関係予測のR@50の35.9%の絶対的な改善を達成した。
- 参考スコア(独自算出の注目度): 41.910139279308886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose the semantic graph Transformer (SGT) for the 3D
scene graph generation. The task aims to parse a cloud point-based scene into a
semantic structural graph, with the core challenge of modeling the complex
global structure. Existing methods based on graph convolutional networks (GCNs)
suffer from the over-smoothing dilemma and could only propagate information
from limited neighboring nodes. In contrast, our SGT uses Transformer layers as
the base building block to allow global information passing, with two types of
proposed Transformer layers tailored for the 3D scene graph generation task.
Specifically, we introduce the graph embedding layer to best utilize the global
information in graph edges while maintaining comparable computation costs.
Additionally, we propose the semantic injection layer to leverage categorical
text labels and visual object knowledge. We benchmark our SGT on the
established 3DSSG benchmark and achieve a 35.9% absolute improvement in
relationship prediction's R@50 and an 80.40% boost on the subset with complex
scenes over the state-of-the-art. Our analyses further show SGT's superiority
in the long-tailed and zero-shot scenarios. We will release the code and model.
- Abstract(参考訳): 本稿では,3次元シーングラフ生成のための意味グラフ変換器(SGT)を提案する。
このタスクは、クラウドポイントベースのシーンをセマンティックな構造グラフに解析することを目的としている。
グラフ畳み込みネットワーク(GCN)に基づく既存の手法は、過度にスムーズなジレンマに悩まされ、限られた隣接ノードからの情報を伝播するしかなかった。
対照的に、SGTでは3Dシーングラフ生成タスクに適した2種類のTransformerレイヤをベースビルディングブロックとして使用し、グローバルな情報転送を可能にしています。
具体的には,グラフエッジのグローバルな情報を利用するためにグラフ埋め込み層を導入し,計算コストを比較検討する。
さらに,分類的テキストラベルと視覚的オブジェクト知識を活用する意味注入層を提案する。
我々は、確立された3DSSGベンチマークでSGTをベンチマークし、関係予測のR@50の絶対的な改善を35.9%達成し、最先端の複雑なシーンでサブセットを80.40%向上させた。
さらに,SGTの長期・ゼロショットシナリオにおける優位性を示す。
コードとモデルをリリースします。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding [8.32401190051443]
本稿では,3次元点群からセマンティックなシーングラフを生成するEquivariant Scene Graph Neural Network (ESGNN) の実装について述べる。
我々の組み合わせアーキテクチャは、時間等変Scene Graph Neural Network (TESGNN) と呼ばれ、シーン推定精度において既存の最先端手法を超えるだけでなく、より高速な収束を実現する。
論文 参考訳(メタデータ) (2024-11-15T15:39:04Z) - Graph Transformer GANs with Graph Masked Modeling for Architectural
Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。
また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:36:38Z) - Instance-incremental Scene Graph Generation from Real-world Point Clouds
via Normalizing Flows [9.4858987199432]
ポイントクラウドのシーンが与えられ、それをグラフとして表現し、新しいインスタンスを自動的に増加させます。
シーンのオブジェクトレイアウトを示すグラフが最終的に生成される。
拡張現実のような視覚ベースのアプリケーションにおいて、新しい3Dオブジェクトを現実世界のシーンに挿入する際のガイドとなる。
論文 参考訳(メタデータ) (2023-02-21T03:34:15Z) - Hierarchical Graph Networks for 3D Human Pose Estimation [50.600944798627786]
最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されたグラフ構造を利用する傾向がある。
この骨格トポロジーは体の構造を反映するには小さすぎるため、重度の2次元から3次元のあいまいさに悩まされていると我々は主張する。
本稿では,これらの弱点を克服するために,新しいグラフ畳み込みネットワークアーキテクチャである階層グラフネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T15:09:03Z) - Local Augmentation for Graph Neural Networks [78.48812244668017]
本稿では,局所的な部分グラフ構造によりノード特性を向上する局所拡張を提案する。
局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。
論文 参考訳(メタデータ) (2021-09-08T18:10:08Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Exploiting Local Geometry for Feature and Graph Construction for Better
3D Point Cloud Processing with Graph Neural Networks [22.936590869919865]
グラフニューラルネットワークの一般枠組みにおける点表現と局所近傍グラフ構築の改善を提案する。
提案されたネットワークは、トレーニングの収束を高速化する。
分類のための40%のより少ないエポック。
論文 参考訳(メタデータ) (2021-03-28T21:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。