論文の概要: TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2411.10509v2
- Date: Sun, 02 Mar 2025 18:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:11:15.706190
- Title: TESGNN: Temporal Equivariant Scene Graph Neural Networks for Efficient and Robust Multi-View 3D Scene Understanding
- Title(参考訳): TESGNN: 効率的かつロバストなマルチビュー3Dシーン理解のための時間同変Scene Graph Neural Networks
- Authors: Quang P. M. Pham, Khoi T. N. Nguyen, Lan C. Ngo, Truong Do, Dezhen Song, Truong-Son Hy,
- Abstract要約: 本稿では,2つの鍵成分からなる時変Scene Graph Neural Network (TESGNN)を提案する。
ESGNNは、3次元点雲から情報を抽出し、重要な対称性特性を保持しながらシーングラフを生成する。
対称性保存特性を活用することにより,より安定かつ正確なグローバルシーン表現が得られることを示す。
- 参考スコア(独自算出の注目度): 8.32401190051443
- License:
- Abstract: Scene graphs have proven to be highly effective for various scene understanding tasks due to their compact and explicit representation of relational information. However, current methods often overlook the critical importance of preserving symmetry when generating scene graphs from 3D point clouds, which can lead to reduced accuracy and robustness, particularly when dealing with noisy, multi-view data. Furthermore, a major limitation of prior approaches is the lack of temporal modeling to capture time-dependent relationships among dynamically evolving entities in a scene. To address these challenges, we propose Temporal Equivariant Scene Graph Neural Network (TESGNN), consisting of two key components: (1) an Equivariant Scene Graph Neural Network (ESGNN), which extracts information from 3D point clouds to generate scene graph while preserving crucial symmetry properties, and (2) a Temporal Graph Matching Network, which fuses scene graphs generated by ESGNN across multiple time sequences into a unified global representation using an approximate graph-matching algorithm. Our combined architecture TESGNN outperforms current state-of-the-art methods in scene graph generation, achieving higher accuracy and faster training convergence. Moreover, we show that leveraging the symmetry-preserving property produces a more stable and accurate global scene representation compared to existing approaches. Last but not least, it is computationally efficient and easily implementable using existing frameworks, making it well-suited for real-time applications in robotics and computer vision. This approach paves the way for more robust and scalable solutions to complex multi-view scene understanding challenges. Our source code is publicly available at: https://github.com/HySonLab/TESGraph
- Abstract(参考訳): シーングラフは、関係情報のコンパクトで明示的な表現のため、様々なシーン理解タスクに非常に効果的であることが証明されている。
しかし、現在の手法では、3Dポイントの雲からシーングラフを生成する際に対称性を保つことが重要であり、特にノイズの多いマルチビューデータを扱う場合、精度とロバスト性を低下させる可能性がある。
さらに、従来のアプローチの大きな制限は、シーン内で動的に進化するエンティティ間の時間依存関係をキャプチャする時間的モデリングの欠如である。
これらの課題に対処するため,1) 重要な対称性特性を保ちながら3次元点群から情報を抽出してシーングラフを生成するEquivariant Scene Graph Neural Network (ESGNN) と,2) ESGNN が生成したシーングラフを複数の時系列で融合したテンポラルグラフマッチングネットワーク (TESGNN) の2つの主要成分からなるテンポラルグラフマッチングネットワークを提案する。
我々の組み合わせアーキテクチャであるTESGNNは、シーングラフ生成における最先端の手法より優れ、精度が高く、より高速なトレーニング収束を実現する。
さらに, 対称性保存特性の活用により, 既存の手法と比較して, より安定かつ正確なグローバルシーン表現が得られることを示す。
最後に、計算効率が良く、既存のフレームワークを使って簡単に実装できるため、ロボット工学やコンピュータビジョンのリアルタイム応用に適している。
このアプローチは、複雑なマルチビューシーン理解の課題に対して、より堅牢でスケーラブルなソリューションの道を開くものです。
私たちのソースコードは、https://github.com/HySonLab/TESGraphで公開されています。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - ESGNN: Towards Equivariant Scene Graph Neural Network for 3D Scene Understanding [2.5165775267615205]
この研究は、シーン理解のために3Dポイントクラウドからセマンティックシーングラフを生成するために、Equivariant Graph Neural Networkを実装した最初のものである。
提案手法であるESGNNは、既存の最先端手法よりも優れており、より高速な収束によるシーン推定の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-06-30T06:58:04Z) - Multi-Scene Generalized Trajectory Global Graph Solver with Composite
Nodes for Multiple Object Tracking [61.69892497726235]
複合ノードメッセージパッシングネットワーク(CoNo-Link)は、超長いフレーム情報を関連付けるためのフレームワークである。
オブジェクトをノードとして扱う従来の方法に加えて、このネットワークは情報インタラクションのためのノードとしてオブジェクトトラジェクトリを革新的に扱う。
我々のモデルは、合成ノードを追加することで、より長い時間スケールでより良い予測を学習することができる。
論文 参考訳(メタデータ) (2023-12-14T14:00:30Z) - From random-walks to graph-sprints: a low-latency node embedding
framework on continuous-time dynamic graphs [4.372841335228306]
本稿では,レイテンシが低く,最先端の高レイテンシモデルと競合する連続時間動的グラフ(CTDG)のフレームワークを提案する。
本フレームワークでは,マルチホップ情報を要約したタイムアウェアノード埋め込みを,入ってくるエッジ上のシングルホップ操作のみを用いて計算する。
グラフプリント機能と機械学習を組み合わせることで,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2023-07-17T12:25:52Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - Temporal Aggregation and Propagation Graph Neural Networks for Dynamic
Representation [67.26422477327179]
時間グラフは連続時間を通してノード間の動的相互作用を示す。
本研究では,周辺地域全体と時間的グラフ畳み込みの新たな手法を提案する。
提案するTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-15T08:17:18Z) - TodyNet: Temporal Dynamic Graph Neural Network for Multivariate Time
Series Classification [6.76723360505692]
未定義のグラフ構造を使わずに隠蔽時間依存を抽出できる新しい時間的動的グラフネットワーク(TodyNet)を提案する。
26のUEAベンチマークデータセットの実験は、提案されたTodyNetがMTSCタスクで既存のディープラーニングベースのメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-04-11T09:21:28Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Efficient-Dyn: Dynamic Graph Representation Learning via Event-based
Temporal Sparse Attention Network [2.0047096160313456]
動的グラフニューラルネットワークは、研究者からますます注目を集めている。
本稿では,新しい動的グラフニューラルネットワークであるEfficient-Dynを提案する。
時間的情報を同じ量の時間的トポロジ的構造を持つパッチのシーケンスに適応的に符号化する。
論文 参考訳(メタデータ) (2022-01-04T23:52:24Z) - SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D
Sequences [76.28527350263012]
rgb-dフレームのシーケンスを与えられた3次元環境から意味的シーングラフを漸進的に構築する手法を提案する。
我々は、グラフニューラルネットワークを用いて、プリミティブシーンコンポーネントからpointnet機能を集約する。
提案手法は,35hzで動作する他の3dセマンティクスおよびパンオプティカルセグメンテーション法と同等の精度で,高いマージンで3dシーングラフ予測手法を上回る。
論文 参考訳(メタデータ) (2021-03-27T13:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。