論文の概要: Integrating Prior Observations for Incremental 3D Scene Graph Prediction
- arxiv url: http://arxiv.org/abs/2509.11895v1
- Date: Mon, 15 Sep 2025 13:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.300654
- Title: Integrating Prior Observations for Incremental 3D Scene Graph Prediction
- Title(参考訳): インクリメンタル3次元シーングラフ予測のための事前観測の統合
- Authors: Marian Renz, Felix Igelbrink, Martin Atzmueller,
- Abstract要約: 3Dセマンティックシーングラフ(3DSSG)は、オブジェクト、属性、関係性を明示的にモデル化することで、環境のコンパクトな構造化表現を提供する。
本稿では,先行観測などの付加的なマルチモーダル情報を直接メッセージパッシングプロセスに統合する,インクリメンタルな3DSSG予測のための新しいグラフモデルを提案する。
我々は3DSSGデータセットに対する我々のアプローチを評価し、GNNがセマンティック埋め込み(例えばCLIP)や事前観測などのマルチモーダル情報に富んだことが、複雑な実環境に対してスケーラブルで一般化可能なソリューションを提供することを示す。
- 参考スコア(独自算出の注目度): 0.866627581195388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic scene graphs (3DSSG) provide compact structured representations of environments by explicitly modeling objects, attributes, and relationships. While 3DSSGs have shown promise in robotics and embodied AI, many existing methods rely mainly on sensor data, not integrating further information from semantically rich environments. Additionally, most methods assume access to complete scene reconstructions, limiting their applicability in real-world, incremental settings. This paper introduces a novel heterogeneous graph model for incremental 3DSSG prediction that integrates additional, multi-modal information, such as prior observations, directly into the message-passing process. Utilizing multiple layers, the model flexibly incorporates global and local scene representations without requiring specialized modules or full scene reconstructions. We evaluate our approach on the 3DSSG dataset, showing that GNNs enriched with multi-modal information such as semantic embeddings (e.g., CLIP) and prior observations offer a scalable and generalizable solution for complex, real-world environments. The full source code of the presented architecture will be made available at https://github.com/m4renz/incremental-scene-graph-prediction.
- Abstract(参考訳): 3Dセマンティックシーングラフ(3DSSG)は、オブジェクト、属性、関係性を明示的にモデル化することで、環境のコンパクトな構造化表現を提供する。
3DSSGはロボット工学とAIの具体化において有望であるが、既存の多くの手法は主にセンサーデータに依存しており、セマンティックにリッチな環境からのさらなる情報を統合していない。
さらに、ほとんどのメソッドはシーンの完全な再構築へのアクセスを前提としており、実際のインクリメンタルな設定で適用性を制限する。
本稿では,先行観測などの付加的なマルチモーダル情報を直接メッセージパッシングプロセスに統合する,インクリメンタルな3DSSG予測のための新しいヘテロジニアスグラフモデルを提案する。
複数のレイヤを利用するモデルでは、特別なモジュールや全シーン再構築を必要とせずに、グローバルおよびローカルなシーン表現を柔軟に組み込むことができる。
我々は3DSSGデータセットに対する我々のアプローチを評価し、GNNがセマンティック埋め込み(例えばCLIP)や先行観測などのマルチモーダル情報に富んでいることを示し、複雑な実環境に対してスケーラブルで一般化可能なソリューションを提供する。
提示されたアーキテクチャのソースコードはhttps://github.com/m4renz/incremental-scene-graph-predictionで公開される。
関連論文リスト
- SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D [51.32219731589742]
3Dシーングラフは、オブジェクトエンティティとその関連性の構造化された表現を提供する。
3次元シーングラフ生成のための既存のアプローチは、通常、シーン再構成とグラフニューラルネットワーク(GNN)を組み合わせる。
本研究では,3次元のSGR3モデルを用いたScene Graph Retrieval-Reasoning Modelを提案する。
論文 参考訳(メタデータ) (2026-03-04T21:19:54Z) - MA3DSG: Multi-Agent 3D Scene Graph Generation for Large-Scale Indoor Environments [6.071490877668865]
我々は,マルチエージェントを用いて,この拡張性に対処するための最初のフレームワークであるマルチエージェント3次元シーングラフ生成(MA3DSG)モデルを導入する。
我々は,個々のエージェントから部分グラフを効率よく統合したグローバルシーングラフにマージする学習自由グラフアライメントアルゴリズムを開発した。
論文 参考訳(メタデータ) (2026-02-04T02:39:57Z) - KeySG: Hierarchical Keyframe-Based 3D Scene Graphs [1.5134439544218246]
KeySGは3Dシーンを、床、部屋、オブジェクト、機能要素からなる階層的なグラフとして表現している。
我々はVLMを利用してシーン情報を抽出し、オブジェクト間の関係エッジを明示的にモデル化する必要性を緩和する。
我々のアプローチは、大規模シーングラフに関連するスケーラビリティ問題を緩和しながら、複雑であいまいなクエリを処理できる。
論文 参考訳(メタデータ) (2025-10-01T15:53:27Z) - Open-Vocabulary Indoor Object Grounding with 3D Hierarchical Scene Graph [0.0]
OVIGo-3DHSGは階層的なシーングラフ上の広い屋内環境を表す。
階層的表現は、床、部屋、場所、オブジェクト間の空間関係を明示的にモデル化する。
提案手法は,既存の手法と比較して,効率的なシーン理解とロバストなオブジェクトグラウンド化を実証する。
論文 参考訳(メタデータ) (2025-07-16T10:47:12Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - GaussianGraph: 3D Gaussian-based Scene Graph Generation for Open-world Scene Understanding [20.578106363482018]
本稿では,セマンティッククラスタリングとシーングラフ生成を統合し,3DGSに基づくシーン理解を強化する新しいフレームワークを提案する。
本稿では,シーンスケールや特徴分布に動的に対応し,特徴圧縮を回避する"Control-Follow"クラスタリング戦略を提案する。
2次元基礎モデルから抽出したオブジェクト属性と空間関係を統合することでシーン表現を充実させる。
論文 参考訳(メタデータ) (2025-03-06T02:36:59Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。