論文の概要: TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2411.10509v1
- Date: Fri, 15 Nov 2024 15:39:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:50.348850
- Title: TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding
- Title(参考訳): TESGNN: 効率的かつロバストなマルチビュー3Dシーン理解のための時間同変Scene Graph Neural Networks
- Authors: Quang P. M. Pham, Khoi T. N. Nguyen, Lan C. Ngo, Dezhen Song, Truong Do, Truong Son Hy,
- Abstract要約: 本稿では,3次元点群からセマンティックなシーングラフを生成するEquivariant Scene Graph Neural Network (ESGNN) の実装について述べる。
我々の組み合わせアーキテクチャは、時間等変Scene Graph Neural Network (TESGNN) と呼ばれ、シーン推定精度において既存の最先端手法を超えるだけでなく、より高速な収束を実現する。
- 参考スコア(独自算出の注目度): 8.32401190051443
- License:
- Abstract: Scene graphs have proven to be highly effective for various scene understanding tasks due to their compact and explicit representation of relational information. However, current methods often overlook the critical importance of preserving symmetry when generating scene graphs from 3D point clouds, which can lead to reduced accuracy and robustness, particularly when dealing with noisy, multi-view data. This work, to the best of our knowledge, presents the first implementation of an Equivariant Scene Graph Neural Network (ESGNN) to generate semantic scene graphs from 3D point clouds, specifically for enhanced scene understanding. Furthermore, a significant limitation of prior methods is the absence of temporal modeling to capture time-dependent relationships among dynamically evolving entities within a scene. To address this gap, we introduce a novel temporal layer that leverages the symmetry-preserving properties of ESGNN to fuse scene graphs across multiple sequences into a unified global representation by an approximate graph-matching algorithm. Our combined architecture, termed the Temporal Equivariant Scene Graph Neural Network (TESGNN), not only surpasses existing state-of-the-art methods in scene estimation accuracy but also achieves faster convergence. Importantly, TESGNN is computationally efficient and straightforward to implement using existing frameworks, making it well-suited for real-time applications in robotics and computer vision. This approach paves the way for more robust and scalable solutions to complex multi-view scene understanding challenges. Our source code is publicly available at: https://github.com/HySonLab/TESGraph
- Abstract(参考訳): シーングラフは、関係情報のコンパクトで明示的な表現のため、様々なシーン理解タスクに非常に効果的であることが証明されている。
しかし、現在の手法では、3Dポイントの雲からシーングラフを生成する際に対称性を保つことが重要であり、特にノイズの多いマルチビューデータを扱う場合、精度とロバスト性を低下させる可能性がある。
この研究は、私たちの知る限り、Equivariant Scene Graph Neural Network(ESGNN)の最初の実装として、3Dポイントクラウドからセマンティックなシーングラフを生成する。
さらに、先行手法の重大な制限は、シーン内の動的に進化するエンティティ間の時間依存関係をキャプチャする時間的モデリングが存在しないことである。
このギャップに対処するために、ESGNNの対称性保存特性を利用して、複数のシーケンスにまたがるシーングラフを、近似グラフマッチングアルゴリズムにより統一されたグローバル表現に融合する新しい時間層を導入する。
我々の組み合わせアーキテクチャは、時間等変Scene Graph Neural Network (TESGNN) と呼ばれ、シーン推定精度において既存の最先端手法を超えるだけでなく、より高速な収束を実現する。
重要なのは、TESGNNは計算的に効率的で、既存のフレームワークを使って簡単に実装でき、ロボット工学やコンピュータビジョンのリアルタイム応用に適していることだ。
このアプローチは、複雑なマルチビューシーン理解の課題に対して、より堅牢でスケーラブルなソリューションの道を開くものです。
私たちのソースコードは、https://github.com/HySonLab/TESGraphで公開されています。
関連論文リスト
- ESGNN: Towards Equivariant Scene Graph Neural Network for 3D Scene Understanding [2.5165775267615205]
この研究は、シーン理解のために3Dポイントクラウドからセマンティックシーングラフを生成するために、Equivariant Graph Neural Networkを実装した最初のものである。
提案手法であるESGNNは、既存の最先端手法よりも優れており、より高速な収束によるシーン推定の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-06-30T06:58:04Z) - Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - From random-walks to graph-sprints: a low-latency node embedding
framework on continuous-time dynamic graphs [4.372841335228306]
本稿では,レイテンシが低く,最先端の高レイテンシモデルと競合する連続時間動的グラフ(CTDG)のフレームワークを提案する。
本フレームワークでは,マルチホップ情報を要約したタイムアウェアノード埋め込みを,入ってくるエッジ上のシングルホップ操作のみを用いて計算する。
グラフプリント機能と機械学習を組み合わせることで,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2023-07-17T12:25:52Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - Temporal Aggregation and Propagation Graph Neural Networks for Dynamic
Representation [67.26422477327179]
時間グラフは連続時間を通してノード間の動的相互作用を示す。
本研究では,周辺地域全体と時間的グラフ畳み込みの新たな手法を提案する。
提案するTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-15T08:17:18Z) - TodyNet: Temporal Dynamic Graph Neural Network for Multivariate Time
Series Classification [6.76723360505692]
未定義のグラフ構造を使わずに隠蔽時間依存を抽出できる新しい時間的動的グラフネットワーク(TodyNet)を提案する。
26のUEAベンチマークデータセットの実験は、提案されたTodyNetがMTSCタスクで既存のディープラーニングベースのメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-04-11T09:21:28Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Efficient-Dyn: Dynamic Graph Representation Learning via Event-based
Temporal Sparse Attention Network [2.0047096160313456]
動的グラフニューラルネットワークは、研究者からますます注目を集めている。
本稿では,新しい動的グラフニューラルネットワークであるEfficient-Dynを提案する。
時間的情報を同じ量の時間的トポロジ的構造を持つパッチのシーケンスに適応的に符号化する。
論文 参考訳(メタデータ) (2022-01-04T23:52:24Z) - Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using
Scene Graphs [85.54212143154986]
制御可能なシーン合成は、基本的な仕様を満たす3D情報を生成することで構成される。
シーングラフは、オブジェクト(ノード)とオブジェクト間の関係(エッジ)からなるシーンの表現である
本稿では,シーングラフから形状を直接エンドツーエンドに生成する手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T17:59:07Z) - SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D
Sequences [76.28527350263012]
rgb-dフレームのシーケンスを与えられた3次元環境から意味的シーングラフを漸進的に構築する手法を提案する。
我々は、グラフニューラルネットワークを用いて、プリミティブシーンコンポーネントからpointnet機能を集約する。
提案手法は,35hzで動作する他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等の精度で,高いマージンで3dシーングラフ予測手法を上回る。
論文 参考訳(メタデータ) (2021-03-27T13:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。