論文の概要: OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding
- arxiv url: http://arxiv.org/abs/2603.16301v2
- Date: Wed, 18 Mar 2026 02:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.899443
- Title: OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding
- Title(参考訳): OGScene3D:Incrmental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding
- Authors: Siting Zhu, Ziyun Lu, Guangming Wang, Chenguang Huang, Yongbo Chen, I-Ming Chen, Wolfram Burgard, Hesheng Wang,
- Abstract要約: OGScene3Dは,正確な3次元セマンティックマッピングとシーングラフ構築を段階的に行う,オープン語彙のシーン理解システムである。
本システムは,セマンティック予測と信頼性を協調的にモデル化する自信に基づくガウス意味表現を用いている。
2D-3Dセマンティック一貫性とガウスレンダリングのコントリビューションを統合することで、この手法はシーン全体のセマンティック理解を継続的に洗練する。
- 参考スコア(独自算出の注目度): 30.730672505996967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary scene understanding is crucial for robotic applications, enabling robots to comprehend complex 3D environmental contexts and supporting various downstream tasks such as navigation and manipulation. However, existing methods require pre-built complete 3D semantic maps to construct scene graphs for scene understanding, which limits their applicability in robotic scenarios where environments are explored incrementally. To address this challenge, we propose OGScene3D, an open-vocabulary scene understanding system that achieves accurate 3D semantic mapping and scene graph construction incrementally. Our system employs a confidence-based Gaussian semantic representation that jointly models semantic predictions and their reliability, enabling robust scene modeling. Building on this representation, we introduce a hierarchical 3D semantic optimization strategy that achieves semantic consistency through local correspondence establishment and global refinement, thereby constructing globally consistent semantic maps. Moreover, we design a long-term global optimization method that leverages temporal memory of historical observations to enhance semantic predictions. By integrating 2D-3D semantic consistency with Gaussian rendering contribution, this method continuously refines the semantic understanding of the entire scene. Furthermore, we develop a progressive graph construction approach that dynamically creates and updates both nodes and semantic relationships, allowing continuous updating of the 3D scene graphs. Extensive experiments on widely used datasets and real-world scenes demonstrate the effectiveness of our OGScene3D on open-vocabulary scene understanding.
- Abstract(参考訳): ロボットは複雑な3D環境を理解でき、ナビゲーションや操作など、さまざまな下流タスクをサポートする。
しかし、既存の手法ではシーン理解のためのシーングラフを構築するために、事前に構築された3Dセマンティックマップが必要である。
この課題に対処するために,我々は,正確な3Dセマンティックマッピングとシーングラフ構築を段階的に実現するオープン語彙シーン理解システムであるOGScene3Dを提案する。
本システムでは,セマンティックな予測と信頼性を協調的にモデル化する自信に基づくガウス意味表現を用いて,ロバストなシーンモデリングを実現する。
この表現に基づく階層型3Dセマンティック・オプティマイズ・ストラテジーを導入し、局所的な対応確立とグローバルな改善を通じてセマンティック・一貫性を実現することにより、グローバルなセマンティック・マップの構築を行う。
さらに,歴史的観測の時間記憶を利用して意味的予測を向上する長期グローバル最適化手法を設計する。
2D-3Dセマンティック一貫性とガウスレンダリングのコントリビューションを統合することで、この手法はシーン全体のセマンティック理解を継続的に洗練する。
さらに,ノードとセマンティックな関係を動的に生成・更新するプログレッシブグラフ構築手法を開発し,3次元シーングラフの連続的な更新を可能にする。
広く使われているデータセットと実世界のシーンに関する大規模な実験は、オープン語彙のシーン理解におけるOGScene3Dの有効性を実証している。
関連論文リスト
- Scene Generation at Absolute Scale: Utilizing Semantic and Geometric Guidance From Text for Accurate and Interpretable 3D Indoor Scene Generation [5.189354278537469]
GuidedSceneGenは、メートル法的に正確で、一貫した、意味的に解釈可能な屋内シーンを生成する。
我々のアプローチは、生成プロセス全体を通して絶対的な世界座標フレームを維持します。
論文 参考訳(メタデータ) (2026-03-14T11:46:27Z) - Open-World 3D Scene Graph Generation for Retrieval-Augmented Reasoning [24.17324180628543]
本稿では,Retrieval-Augmented Reasoningを用いたOpen-World 3D Scene Graph Generationの統一フレームワークを提案する。
本手法は,視覚言語モデル(VLM)と検索に基づく推論を統合し,マルチモーダル探索と言語誘導インタラクションを支援する。
本研究では,3DSSG と Replica ベンチマークを用いて,多様な環境下での堅牢な一般化と優れた性能を実証する4つのタスクシーンの質問応答,視覚的グラウンド,インスタンス検索,タスク計画の検証を行った。
論文 参考訳(メタデータ) (2025-11-08T07:37:29Z) - A Study of the Framework and Real-World Applications of Language Embedding for 3D Scene Understanding [2.934809709666499]
Gaussian Splattingはリアルタイム3Dシーン表現の変換技術として登場した。
複雑なシーンを高い忠実度でレンダリングする能力は、シーン再構築、ロボティクス、インタラクティブなコンテンツ作成といった領域をまたいだ進歩を可能にした。
本調査では,言語指導と3次元ガウススプラッティングを組み合わせた最近の研究成果について概説する。
論文 参考訳(メタデータ) (2025-08-07T06:33:08Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。