論文の概要: DSG-World: Learning a 3D Gaussian World Model from Dual State Videos
- arxiv url: http://arxiv.org/abs/2506.05217v1
- Date: Thu, 05 Jun 2025 16:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.825203
- Title: DSG-World: Learning a 3D Gaussian World Model from Dual State Videos
- Title(参考訳): DSG-World:デュアルステートビデオから3Dガウス世界モデルを学ぶ
- Authors: Wenhao Hu, Xuexiang Wen, Xi Li, Gaoang Wang,
- Abstract要約: 本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
- 参考スコア(独自算出の注目度): 14.213608866611784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building an efficient and physically consistent world model from limited observations is a long standing challenge in vision and robotics. Many existing world modeling pipelines are based on implicit generative models, which are hard to train and often lack 3D or physical consistency. On the other hand, explicit 3D methods built from a single state often require multi-stage processing-such as segmentation, background completion, and inpainting-due to occlusions. To address this, we leverage two perturbed observations of the same scene under different object configurations. These dual states offer complementary visibility, alleviating occlusion issues during state transitions and enabling more stable and complete reconstruction. In this paper, we present DSG-World, a novel end-to-end framework that explicitly constructs a 3D Gaussian World model from Dual State observations. Our approach builds dual segmentation-aware Gaussian fields and enforces bidirectional photometric and semantic consistency. We further introduce a pseudo intermediate state for symmetric alignment and design collaborative co-pruning trategies to refine geometric completeness. DSG-World enables efficient real-to-simulation transfer purely in the explicit Gaussian representation space, supporting high-fidelity rendering and object-level scene manipulation without relying on dense observations or multi-stage pipelines. Extensive experiments demonstrate strong generalization to novel views and scene states, highlighting the effectiveness of our approach for real-world 3D reconstruction and simulation.
- Abstract(参考訳): 限られた観測から、効率的で物理的に一貫した世界モデルを構築することは、ビジョンとロボティクスにおける長年の課題である。
多くの既存の世界モデリングパイプラインは暗黙的な生成モデルに基づいている。
一方、単一状態から構築された明示的な3Dメソッドは、オークルージョンに対するセグメンテーション、バックグラウンド補完、インパインティングデューといったマルチステージ処理を必要とすることが多い。
これを解決するために、異なるオブジェクト構成下で同じシーンを2つの摂動観察する。
これらの二重状態は相補的な可視性を提供し、状態遷移時の閉塞問題を緩和し、より安定で完全な再構築を可能にする。
本稿では,Dual Stateの観測から3次元ガウス世界モデルを構築する新しいエンドツーエンドフレームワークDSG-Worldを提案する。
提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
さらに、対称アライメントのための擬似中間状態を導入し、幾何学的完全性を洗練させるために協調的な戦略を設計する。
DSG-Worldは、高忠実なレンダリングとオブジェクトレベルのシーン操作を、高密度な観測や多段パイプラインに頼ることなくサポートし、明示的なガウス表現空間で純粋に効率的なリアルタイム・シミュレーション転送を可能にする。
広汎な実験は、新しいビューやシーン状態への強力な一般化を示し、実世界の3D再構成とシミュレーションへのアプローチの有効性を強調した。
関連論文リスト
- Global-Aware Monocular Semantic Scene Completion with State Space Models [25.621011183332094]
Monocular Semantic Scene Completion (MonoSSC)は、単一の画像から3D環境を再構成し、解釈する。
既存の手法は、しばしば畳み込みネットワーク(CNN)の局所受容領域によって制約される。
GA-MonoSSCは2次元画像領域と3次元空間の両方のグローバルコンテキストを効果的にキャプチャするMonoSSCのハイブリッドアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-09T11:55:40Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting [47.67153284714988]
画像ごとの過渡的対象に対して2次元ガウスアンを用いて,ハイブリッドGSと呼ばれる新しいハイブリッド表現を提案する。
また、ロバストなトレーニングと高品質なビュー合成を実現するために、単純かつ効果的なマルチステージトレーニング戦略を提案する。
ベンチマークデータセットを用いた実験は、室内および屋外の両方のシーンにおいて、新しいビュー合成の最先端性能を示す。
論文 参考訳(メタデータ) (2024-12-05T03:20:35Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。