Fugu-MT 論文翻訳(概要): DSG-World: Learning a 3D Gaussian World Model from Dual State Videos

論文の概要: DSG-World: Learning a 3D Gaussian World Model from Dual State Videos

arxiv url: http://arxiv.org/abs/2506.05217v1
Date: Thu, 05 Jun 2025 16:33:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.825203
Title: DSG-World: Learning a 3D Gaussian World Model from Dual State Videos
Title（参考訳）: DSG-World:デュアルステートビデオから3Dガウス世界モデルを学ぶ
Authors: Wenhao Hu, Xuexiang Wen, Xi Li, Gaoang Wang,
Abstract要約: 本稿では,Dual Stateの観測から3次元ガウス世界モデルを明示的に構築する,新しいエンドツーエンドフレームワークDSG-Worldを提案する。提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。
参考スコア（独自算出の注目度）: 14.213608866611784
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Building an efficient and physically consistent world model from limited observations is a long standing challenge in vision and robotics. Many existing world modeling pipelines are based on implicit generative models, which are hard to train and often lack 3D or physical consistency. On the other hand, explicit 3D methods built from a single state often require multi-stage processing-such as segmentation, background completion, and inpainting-due to occlusions. To address this, we leverage two perturbed observations of the same scene under different object configurations. These dual states offer complementary visibility, alleviating occlusion issues during state transitions and enabling more stable and complete reconstruction. In this paper, we present DSG-World, a novel end-to-end framework that explicitly constructs a 3D Gaussian World model from Dual State observations. Our approach builds dual segmentation-aware Gaussian fields and enforces bidirectional photometric and semantic consistency. We further introduce a pseudo intermediate state for symmetric alignment and design collaborative co-pruning trategies to refine geometric completeness. DSG-World enables efficient real-to-simulation transfer purely in the explicit Gaussian representation space, supporting high-fidelity rendering and object-level scene manipulation without relying on dense observations or multi-stage pipelines. Extensive experiments demonstrate strong generalization to novel views and scene states, highlighting the effectiveness of our approach for real-world 3D reconstruction and simulation.
Abstract（参考訳）: 限られた観測から、効率的で物理的に一貫した世界モデルを構築することは、ビジョンとロボティクスにおける長年の課題である。多くの既存の世界モデリングパイプラインは暗黙的な生成モデルに基づいている。一方、単一状態から構築された明示的な3Dメソッドは、オークルージョンに対するセグメンテーション、バックグラウンド補完、インパインティングデューといったマルチステージ処理を必要とすることが多い。これを解決するために、異なるオブジェクト構成下で同じシーンを2つの摂動観察する。これらの二重状態は相補的な可視性を提供し、状態遷移時の閉塞問題を緩和し、より安定で完全な再構築を可能にする。本稿では,Dual Stateの観測から3次元ガウス世界モデルを構築する新しいエンドツーエンドフレームワークDSG-Worldを提案する。提案手法は、二分割対応ガウス場を構築し、双方向の測光および意味的整合性を実現する。さらに、対称アライメントのための擬似中間状態を導入し、幾何学的完全性を洗練させるために協調的な戦略を設計する。 DSG-Worldは、高忠実なレンダリングとオブジェクトレベルのシーン操作を、高密度な観測や多段パイプラインに頼ることなくサポートし、明示的なガウス表現空間で純粋に効率的なリアルタイム・シミュレーション転送を可能にする。広汎な実験は、新しいビューやシーン状態への強力な一般化を示し、実世界の3D再構成とシミュレーションへのアプローチの有効性を強調した。

関連論文リスト

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文参考訳（メタデータ） (2025-07-05T14:15:52Z)
Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [4.196626042312499]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文参考訳（メタデータ） (2025-06-17T07:04:07Z)
Self-Supervised Multi-Part Articulated Objects Modeling via Deformable Gaussian Splatting and Progressive Primitive Segmentation [23.18517560629462]
DeGSSは,物体を変形可能な3次元ガウス場として符号化し,幾何学,外観,動きを1つのコンパクト表現に埋め込む統一フレームワークである。一般化とリアリズムを評価するために、合成PartNet-Mobilityベンチマークを拡張し、RGBキャプチャと正確にリバースエンジニアリングされた3Dモデルを組み合わせたリアル・トゥ・シムデータセットRS-Artをリリースする。
論文参考訳（メタデータ） (2025-06-11T12:32:16Z)
ArticulatedGS: Self-supervised Digital Twin Modeling of Articulated Objects using 3D Gaussian Splatting [29.69981069695724]
RGBの出現と動きパラメータの推定により,部分レベルでの同時再構成の課題に対処する。我々は3次元ガウス表現において、外観情報と幾何学情報の両方を同時に再構成する。我々はArticulatedGSを紹介した。ArticulatedGSは自己監督型で総合的なフレームワークで、パートレベルで形状や外観を自律的にモデル化する。
論文参考訳（メタデータ） (2025-03-11T07:56:12Z)
Global-Aware Monocular Semantic Scene Completion with State Space Models [25.621011183332094]
Monocular Semantic Scene Completion (MonoSSC)は、単一の画像から3D環境を再構成し、解釈する。既存の手法は、しばしば畳み込みネットワーク(CNN)の局所受容領域によって制約される。 GA-MonoSSCは2次元画像領域と3次元空間の両方のグローバルコンテキストを効果的にキャプチャするMonoSSCのハイブリッドアーキテクチャである。
論文参考訳（メタデータ） (2025-03-09T11:55:40Z)
GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。 GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文参考訳（メタデータ） (2024-12-12T17:59:03Z)
HybridGS: Decoupling Transients and Statics with 2D and 3D Gaussian Splatting [47.67153284714988]
画像ごとの過渡的対象に対して2次元ガウスアンを用いて,ハイブリッドGSと呼ばれる新しいハイブリッド表現を提案する。また、ロバストなトレーニングと高品質なビュー合成を実現するために、単純かつ効果的なマルチステージトレーニング戦略を提案する。ベンチマークデータセットを用いた実験は、室内および屋外の両方のシーンにおいて、新しいビュー合成の最先端性能を示す。
論文参考訳（メタデータ） (2024-12-05T03:20:35Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文参考訳（メタデータ） (2024-03-15T12:24:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。