Fugu-MT 論文翻訳(概要): Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation

論文の概要: Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation

arxiv url: http://arxiv.org/abs/2303.11048v1
Date: Mon, 20 Mar 2023 11:59:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-21 15:46:59.945346
Title: Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation
Title（参考訳）: ポイントクラウドを用いた3dシーングラフ生成のための再訪トランスフォーマー
Authors: Changsheng Lv, Mengshi Qi, Xia Li, Zhengyuan Yang, Huadong Ma
Abstract要約: 3次元シーングラフ生成タスクに対して意味グラフ変換器(SGT)を提案する。我々のSGTはTransformerレイヤをベースビルディングブロックとして使用し、グローバルな情報転送を可能にしています。我々は、確立された3DSSGベンチマークでSGTをベンチマークし、関係予測のR@50の35.9%の絶対的な改善を達成した。
参考スコア（独自算出の注目度）: 41.910139279308886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose the semantic graph Transformer (SGT) for the 3D scene graph generation. The task aims to parse a cloud point-based scene into a semantic structural graph, with the core challenge of modeling the complex global structure. Existing methods based on graph convolutional networks (GCNs) suffer from the over-smoothing dilemma and could only propagate information from limited neighboring nodes. In contrast, our SGT uses Transformer layers as the base building block to allow global information passing, with two types of proposed Transformer layers tailored for the 3D scene graph generation task. Specifically, we introduce the graph embedding layer to best utilize the global information in graph edges while maintaining comparable computation costs. Additionally, we propose the semantic injection layer to leverage categorical text labels and visual object knowledge. We benchmark our SGT on the established 3DSSG benchmark and achieve a 35.9% absolute improvement in relationship prediction's R@50 and an 80.40% boost on the subset with complex scenes over the state-of-the-art. Our analyses further show SGT's superiority in the long-tailed and zero-shot scenarios. We will release the code and model.
Abstract（参考訳）: 本稿では,3次元シーングラフ生成のための意味グラフ変換器(SGT)を提案する。このタスクは、クラウドポイントベースのシーンをセマンティックな構造グラフに解析することを目的としている。グラフ畳み込みネットワーク(GCN)に基づく既存の手法は、過度にスムーズなジレンマに悩まされ、限られた隣接ノードからの情報を伝播するしかなかった。対照的に、SGTでは3Dシーングラフ生成タスクに適した2種類のTransformerレイヤをベースビルディングブロックとして使用し、グローバルな情報転送を可能にしています。具体的には,グラフエッジのグローバルな情報を利用するためにグラフ埋め込み層を導入し,計算コストを比較検討する。さらに,分類的テキストラベルと視覚的オブジェクト知識を活用する意味注入層を提案する。我々は、確立された3DSSGベンチマークでSGTをベンチマークし、関係予測のR@50の絶対的な改善を35.9%達成し、最先端の複雑なシーンでサブセットを80.40%向上させた。さらに,SGTの長期・ゼロショットシナリオにおける優位性を示す。コードとモデルをリリースします。

関連論文リスト

Graph-Guided Dual-Level Augmentation for 3D Scene Segmentation [21.553363236403822]
3Dポイントクラウドセグメンテーションは、シーン内の個々のポイントにセマンティックラベルを割り当てることを目的としている。既存の手法では、大規模なアノテーションの負担を軽減するためにデータ拡張を採用するのが一般的である。本稿では,現実的な3次元シーン合成のための2レベル制約付きグラフ誘導型データ拡張フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-30T13:25:36Z)
Scalable Graph Generative Modeling via Substructure Sequences [37.64864614356634]
本稿では,グラフ生成用トランスフォーマー事前学習フレームワークである生成グラフパターンマシン(G$2$PM)を紹介する。 G$2$PMはグラフインスタンスをサブストラクチャのシーケンスとして表現し、生成前トレーニングを用いて一般化可能で転送可能な表現を学習する。 ogbn-arxivベンチマークでは、G$2$PMはモデルのサイズを最大60Mのパラメータで改善し続けており、かなり小さなスケールでプラトーを生成する以前の生成的アプローチよりも優れている。
論文参考訳（メタデータ） (2025-05-22T02:16:34Z)
Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文参考訳（メタデータ） (2024-11-25T10:14:10Z)
TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding [8.32401190051443]
本稿では,3次元点群からセマンティックなシーングラフを生成するEquivariant Scene Graph Neural Network (ESGNN) の実装について述べる。我々の組み合わせアーキテクチャは、時間等変Scene Graph Neural Network (TESGNN) と呼ばれ、シーン推定精度において既存の最先端手法を超えるだけでなく、より高速な収束を実現する。
論文参考訳（メタデータ） (2024-11-15T15:39:04Z)
Graph Transformer GANs with Graph Masked Modeling for Architectural Layout Generation [153.92387500677023]
本稿では,グラフノード関係を効果的に学習するために,GTGAN(Graph Transformer Generative Adversarial Network)を提案する。提案したグラフ変換器エンコーダは、局所的およびグローバルな相互作用をモデル化するために、Transformer内のグラフ畳み込みと自己アテンションを組み合わせる。また,グラフ表現学習のための自己指導型事前学習手法を提案する。
論文参考訳（メタデータ） (2024-01-15T14:36:38Z)
GraNet: A Multi-Level Graph Network for 6-DoF Grasp Pose Generation in Cluttered Scenes [0.5755004576310334]
GraNetはグラフベースのグリップポーズ生成フレームワークで、ポイントクラウドシーンをマルチレベルグラフに変換する。このパイプラインは, 散在するシーンにおけるグリップの空間分布を特徴付けることができ, 効果的グリップの速度が向上する。提案手法は,大規模GraspNet-1Billionベンチマークにおいて,特に未確認オブジェクトの把握において,最先端の性能を実現する。
論文参考訳（メタデータ） (2023-12-06T08:36:29Z)
Instance-incremental Scene Graph Generation from Real-world Point Clouds via Normalizing Flows [9.4858987199432]
ポイントクラウドのシーンが与えられ、それをグラフとして表現し、新しいインスタンスを自動的に増加させます。シーンのオブジェクトレイアウトを示すグラフが最終的に生成される。拡張現実のような視覚ベースのアプリケーションにおいて、新しい3Dオブジェクトを現実世界のシーンに挿入する際のガイドとなる。
論文参考訳（メタデータ） (2023-02-21T03:34:15Z)
Hierarchical Graph Networks for 3D Human Pose Estimation [50.600944798627786]
最近の2次元から3次元の人間のポーズ推定は、人間の骨格のトポロジーによって形成されたグラフ構造を利用する傾向がある。この骨格トポロジーは体の構造を反映するには小さすぎるため、重度の2次元から3次元のあいまいさに悩まされていると我々は主張する。本稿では,これらの弱点を克服するために,新しいグラフ畳み込みネットワークアーキテクチャである階層グラフネットワークを提案する。
論文参考訳（メタデータ） (2021-11-23T15:09:03Z)
Local Augmentation for Graph Neural Networks [78.48812244668017]
本稿では,局所的な部分グラフ構造によりノード特性を向上する局所拡張を提案する。局所的な拡張に基づいて、プラグイン・アンド・プレイ方式で任意のGNNモデルに適用可能な、LA-GNNという新しいフレームワークをさらに設計する。
論文参考訳（メタデータ） (2021-09-08T18:10:08Z)
GraphFormers: GNN-nested Transformers for Representation Learning on Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文参考訳（メタデータ） (2021-05-06T12:20:41Z)
Exploiting Local Geometry for Feature and Graph Construction for Better 3D Point Cloud Processing with Graph Neural Networks [22.936590869919865]
グラフニューラルネットワークの一般枠組みにおける点表現と局所近傍グラフ構築の改善を提案する。提案されたネットワークは、トレーニングの収束を高速化する。分類のための40%のより少ないエポック。
論文参考訳（メタデータ） (2021-03-28T21:34:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。