論文の概要: DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding
- arxiv url: http://arxiv.org/abs/2605.29879v1
- Date: Thu, 28 May 2026 13:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.32866
- Title: DGSG-Mind: Dynamic 3D Gaussian Scene Graphs for Long-Term Scene Understanding and Grounding
- Title(参考訳): DGSG-Mind:長期理解と接地のための動的3次元ガウスシーングラフ
- Authors: Luzhou Ge, Xiangyu Zhu, Jinyan Liu, Xuesong Li,
- Abstract要約: 本稿では,DGSG-Mindについて述べる。DGSG-Mindは3次元ガウス動的シーングラフを具体化したハイブリッドなインスタンス認識型動的シーングラフシステムである。
DGSG-Mindは自己再構成マップ上で動作させる手法の中で最高のゼロショット3DVG性能が得られることを示す。
また、現実のロボットにDGSG-Mindを配置し、ターゲット指向の推論と動的更新機能を示す。
- 参考スコア(独自算出の注目度): 6.961193964556352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating open-vocabulary semantic information into dynamic 3D scene representations is essential for long-term embodied scene understanding. However, existing methods often suffer from fragile instance association due to incomplete cross-view cues, while their limited ability to handle object-level topological changes restricts long-term robotic task execution. Moreover, current 3D scene understanding methods either rely on simple feature matching without explicit spatial reasoning or assume offline ground-truth 3D geometry. To address these challenges, we present DGSG-Mind, a hybrid instance-aware 3D Gaussian dynamic scene graph system with an embodied reasoning agent. Our system couples a probabilistic voxel grid with explicit 3D Gaussians to enable robust cross-modal instance fusion and incremental semantic mapping. It handles dynamic changes through Gaussian-based visual relocalization and localized masked refinement guided by geometric-semantic consistency. Built on the instance Gaussian map, DGSG-Mind further constructs a hierarchical scene graph and develops the 3D Gaussian Mind, which integrates structural relations, spatial-semantic information, and visually annotated RoI Gaussian renderings for multimodal reasoning. Extensive experiments show that DGSG-Mind achieves the best zero-shot 3DVG performance among methods operating on self-reconstructed maps, while also delivering strong performance in 3D open-vocabulary semantic segmentation and scene reconstruction. We further deploy DGSG-Mind on real-world robots to demonstrate its target-oriented reasoning and dynamic update capabilities. The project page of DGSG-Mind is available at https://icr-lab.github.io/DGSG-Mind
- Abstract(参考訳): オープン語彙のセマンティック情報を動的3次元シーン表現に統合することは、長期的具体的シーン理解に不可欠である。
しかしながら、既存の手法は、不完全なクロスビュー・キューによって脆弱なインスタンス・アソシエーションに悩まされることが多いが、オブジェクトレベルのトポロジ的変化を扱う能力の制限は、長期的なロボットタスクの実行を制限する。
さらに、現在の3Dシーン理解手法は、空間的推論を明示せずに単純な特徴マッチングに頼るか、オフラインの地上3D形状を仮定する。
これらの課題に対処するため、DGSG-Mindは3次元ガウス動的シーングラフを具体化したハイブリッドなインスタンス認識型動的シーングラフシステムである。
システムでは,確率的ボクセル格子と明示的な3次元ガウス格子を結合して,堅牢なクロスモーダルインスタンス融合とインクリメンタルセマンティックマッピングを実現する。
ガウスに基づく視覚的再局在化と、幾何学的セマンティック整合性によって導かれる局所化マスク強化による動的変化を処理する。
DGSG-Mindは、ガウス写像の例に基づいて、階層的なシーングラフを構築し、構造関係、空間意味情報、マルチモーダル推論のための視覚的注釈付きRoIガウスレンダリングを統合する3Dガウスマインドを開発する。
大規模な実験により,DGSG-Mindは自己再構成マップ上での手法の中で最高のゼロショット3DVG性能を達成し,また3次元オープン語彙セマンティックセマンティックセグメンテーションやシーン再構成において高い性能を発揮することが示された。
我々は、DGSG-Mindを現実世界のロボットに展開し、ターゲット指向の推論と動的更新能力を実証する。
DGSG-Mindのプロジェクトページはhttps://icr-lab.github.io/DGSG-Mindで公開されている。
関連論文リスト
- OGScene3D: Incremental Open-Vocabulary 3D Gaussian Scene Graph Mapping for Scene Understanding [30.730672505996967]
OGScene3Dは,正確な3次元セマンティックマッピングとシーングラフ構築を段階的に行う,オープン語彙のシーン理解システムである。
本システムは,セマンティック予測と信頼性を協調的にモデル化する自信に基づくガウス意味表現を用いている。
2D-3Dセマンティック一貫性とガウスレンダリングのコントリビューションを統合することで、この手法はシーン全体のセマンティック理解を継続的に洗練する。
論文 参考訳(メタデータ) (2026-03-17T09:38:01Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。
スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。
提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T17:56:07Z) - GaussianGraph: 3D Gaussian-based Scene Graph Generation for Open-world Scene Understanding [20.578106363482018]
本稿では,セマンティッククラスタリングとシーングラフ生成を統合し,3DGSに基づくシーン理解を強化する新しいフレームワークを提案する。
本稿では,シーンスケールや特徴分布に動的に対応し,特徴圧縮を回避する"Control-Follow"クラスタリング戦略を提案する。
2次元基礎モデルから抽出したオブジェクト属性と空間関係を統合することでシーン表現を充実させる。
論文 参考訳(メタデータ) (2025-03-06T02:36:59Z) - Bootstraping Clustering of Gaussians for View-consistent 3D Scene Understanding [59.51535163599723]
FreeGSは、教師なしセマンティック組み込み3DGSフレームワークで、2Dラベルを必要とせずに、ビュー一貫性のある3Dシーン理解を実現する。
FreeGSは複雑なデータ前処理のワークロードを避けながら、最先端のメソッドと互換性がある。
論文 参考訳(メタデータ) (2024-11-29T08:52:32Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - Incremental 3D Semantic Scene Graph Prediction from RGB Sequences [86.77318031029404]
RGB画像列が与えられたシーンの一貫性のある3Dセマンティックシーングラフをインクリメンタルに構築するリアルタイムフレームワークを提案する。
提案手法は,新たなインクリメンタルエンティティ推定パイプラインとシーングラフ予測ネットワークから構成される。
提案するネットワークは,シーンエンティティから抽出した多視点および幾何学的特徴を用いて,反復的メッセージパッシングを用いた3次元セマンティックシーングラフを推定する。
論文 参考訳(メタデータ) (2023-05-04T11:32:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。