論文の概要: Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation
- arxiv url: http://arxiv.org/abs/2303.11048v1
- Date: Mon, 20 Mar 2023 11:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 15:46:59.945346
- Title: Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation
- Title(参考訳): ポイントクラウドを用いた3dシーングラフ生成のための再訪トランスフォーマー
- Authors: Changsheng Lv, Mengshi Qi, Xia Li, Zhengyuan Yang, Huadong Ma
- Abstract要約: 3次元シーングラフ生成タスクに対して意味グラフ変換器(SGT)を提案する。
我々のSGTはTransformerレイヤをベースビルディングブロックとして使用し、グローバルな情報転送を可能にしています。
我々は、確立された3DSSGベンチマークでSGTをベンチマークし、関係予測のR@50の35.9%の絶対的な改善を達成した。
- 参考スコア(独自算出の注目度): 41.910139279308886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose the semantic graph Transformer (SGT) for the 3D
scene graph generation. The task aims to parse a cloud point-based scene into a
semantic structural graph, with the core challenge of modeling the complex
global structure. Existing methods based on graph convolutional networks (GCNs)
suffer from the over-smoothing dilemma and could only propagate information
from limited neighboring nodes. In contrast, our SGT uses Transformer layers as
the base building block to allow global information passing, with two types of
proposed Transformer layers tailored for the 3D scene graph generation task.
Specifically, we introduce the graph embedding layer to best utilize the global
information in graph edges while maintaining comparable computation costs.
Additionally, we propose the semantic injection layer to leverage categorical
text labels and visual object knowledge. We benchmark our SGT on the
established 3DSSG benchmark and achieve a 35.9% absolute improvement in
relationship prediction's R@50 and an 80.40% boost on the subset with complex
scenes over the state-of-the-art. Our analyses further show SGT's superiority
in the long-tailed and zero-shot scenarios. We will release the code and model.
- Abstract(参考訳): 本稿では,3次元シーングラフ生成のための意味グラフ変換器(SGT)を提案する。
このタスクは、クラウドポイントベースのシーンをセマンティックな構造グラフに解析することを目的としている。
グラフ畳み込みネットワーク(GCN)に基づく既存の手法は、過度にスムーズなジレンマに悩まされ、限られた隣接ノードからの情報を伝播するしかなかった。
対照的に、SGTでは3Dシーングラフ生成タスクに適した2種類のTransformerレイヤをベースビルディングブロックとして使用し、グローバルな情報転送を可能にしています。
具体的には,グラフエッジのグローバルな情報を利用するためにグラフ埋め込み層を導入し,計算コストを比較検討する。
さらに,分類的テキストラベルと視覚的オブジェクト知識を活用する意味注入層を提案する。
我々は、確立された3DSSGベンチマークでSGTをベンチマークし、関係予測のR@50の絶対的な改善を35.9%達成し、最先端の複雑なシーンでサブセットを80.40%向上させた。
さらに,SGTの長期・ゼロショットシナリオにおける優位性を示す。
コードとモデルをリリースします。
関連論文リスト
- Graph Transformer GANs with Graph Masked Modeling for Architectural
Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。
提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。
また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:36:38Z) - Graph Transformers for Large Graphs [57.19338459218758]
この研究は、モデルの特徴と重要な設計制約を識別することに焦点を当てた、単一の大規模グラフでの表現学習を前進させる。
この研究の重要な革新は、局所的な注意機構と組み合わされた高速な近傍サンプリング技術の作成である。
ogbn-products と snap-patents の3倍の高速化と16.8%の性能向上を報告し、ogbn-100M で LargeGT を5.9% の性能改善で拡張した。
論文 参考訳(メタデータ) (2023-12-18T11:19:23Z) - GraNet: A Multi-Level Graph Network for 6-DoF Grasp Pose Generation in
Cluttered Scenes [0.5755004576310334]
GraNetはグラフベースのグリップポーズ生成フレームワークで、ポイントクラウドシーンをマルチレベルグラフに変換する。
このパイプラインは, 散在するシーンにおけるグリップの空間分布を特徴付けることができ, 効果的グリップの速度が向上する。
提案手法は,大規模GraspNet-1Billionベンチマークにおいて,特に未確認オブジェクトの把握において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-06T08:36:29Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Instance-incremental Scene Graph Generation from Real-world Point Clouds
via Normalizing Flows [9.4858987199432]
ポイントクラウドのシーンが与えられ、それをグラフとして表現し、新しいインスタンスを自動的に増加させます。
シーンのオブジェクトレイアウトを示すグラフが最終的に生成される。
拡張現実のような視覚ベースのアプリケーションにおいて、新しい3Dオブジェクトを現実世界のシーンに挿入する際のガイドとなる。
論文 参考訳(メタデータ) (2023-02-21T03:34:15Z) - Hierarchical Graph Networks for 3D Human Pose Estimation [50.600944798627786]
最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されたグラフ構造を利用する傾向がある。
この骨格トポロジーは体の構造を反映するには小さすぎるため、重度の2次元から3次元のあいまいさに悩まされていると我々は主張する。
本稿では,これらの弱点を克服するために,新しいグラフ畳み込みネットワークアーキテクチャである階層グラフネットワークを提案する。
論文 参考訳(メタデータ) (2021-11-23T15:09:03Z) - Local Augmentation for Graph Neural Networks [78.48812244668017]
本稿では,局所的な部分グラフ構造によりノード特性を向上する局所拡張を提案する。
局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。
論文 参考訳(メタデータ) (2021-09-08T18:10:08Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Exploiting Local Geometry for Feature and Graph Construction for Better
3D Point Cloud Processing with Graph Neural Networks [22.936590869919865]
グラフニューラルネットワークの一般枠組みにおける点表現と局所近傍グラフ構築の改善を提案する。
提案されたネットワークは、トレーニングの収束を高速化する。
分類のための40%のより少ないエポック。
論文 参考訳(メタデータ) (2021-03-28T21:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。