論文の概要: Mirage2Matter: A Physically Grounded Gaussian World Model from Video
- arxiv url: http://arxiv.org/abs/2602.00096v1
- Date: Sat, 24 Jan 2026 07:43:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:32.925834
- Title: Mirage2Matter: A Physically Grounded Gaussian World Model from Video
- Title(参考訳): Mirage2Matter(動画)
- Authors: Zhengqing Gao, Ziwen Li, Xin Wang, Jiaxin Huang, Zhenyang Ren, Mingkai Shao, Hanlue Zhang, Tianyu Huang, Yongkang Cheng, Yandong Guo, Runqi Lin, Yuanyuan Wang, Tongliang Liu, Kun Zhang, Mingming Gong,
- Abstract要約: 我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
- 参考スコア(独自算出の注目度): 87.9732484393686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scalability of embodied intelligence is fundamentally constrained by the scarcity of real-world interaction data. While simulation platforms provide a promising alternative, existing approaches often suffer from a substantial visual and physical gap to real environments and rely on expensive sensors, precise robot calibration, or depth measurements, limiting their practicality at scale. We present Simulate Anything, a graphics-driven world modeling and simulation framework that enables efficient generation of high-fidelity embodied training data using only multi-view environment videos and off-the-shelf assets. Our approach reconstructs real-world environments into a photorealistic scene representation using 3D Gaussian Splatting (3DGS), seamlessly capturing fine-grained geometry and appearance from video. We then leverage generative models to recover a physically realistic representation and integrate it into a simulation environment via a precision calibration target, enabling accurate scale alignment between the reconstructed scene and the real world. Together, these components provide a unified, editable, and physically grounded world model. Vision Language Action (VLA) models trained on our simulated data achieve strong zero-shot performance on downstream tasks, matching or even surpassing results obtained with real-world data, highlighting the potential of reconstruction-driven world modeling for scalable and practical embodied intelligence training.
- Abstract(参考訳): エンボディード・インテリジェンスのスケーラビリティは、現実世界の相互作用データの不足によって根本的に制限されている。
シミュレーションプラットフォームは有望な代替手段を提供するが、既存のアプローチは、現実の環境に対する視覚的および物理的ギャップに悩まされ、高価なセンサー、正確なロボットキャリブレーション、あるいは深さ測定に頼り、大規模な実用性を制限している。
マルチビュー環境ビデオとオフザシェルフアセットのみを用いて,高忠実度エンボディドトレーニングデータの効率的な生成を可能にする,グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを提案する。
提案手法は,3次元ガウススプラッティング(3DGS)を用いて実世界の環境をリアルなシーン表現に再構成し,映像から微細な形状と外観をシームレスにキャプチャする。
次に、生成モデルを活用して、物理的に現実的な表現を復元し、精密なキャリブレーションターゲットを介してシミュレーション環境に統合し、再構成されたシーンと実世界の正確なスケールアライメントを可能にする。
これらのコンポーネントは統合され、編集可能で、物理的に基礎付けられた世界モデルを提供する。
シミュレーションデータに基づいてトレーニングされた視覚言語行動(VLA)モデルは、下流のタスクで強力なゼロショットパフォーマンスを実現し、実世界のデータで得られた結果にマッチングや超越して、スケーラブルで実践的なインテリジェンストレーニングのための再構成駆動の世界モデリングの可能性を強調します。
関連論文リスト
- EmbodiedSplat: Personalized Real-to-Sim-to-Real Navigation with Gaussian Splats from a Mobile Device [33.22697339175522]
Embodied AIは主に、トレーニングと評価のシミュレーションに頼っている。
シン・トゥ・リアル・トランスファーは依然として大きな課題だ。
EmbodiedSplatは、ポリシートレーニングをパーソナライズする新しいアプローチである。
論文 参考訳(メタデータ) (2025-09-22T07:22:31Z) - GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。
中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。
シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文 参考訳(メタデータ) (2025-08-25T02:01:09Z) - DGS-LRM: Real-Time Deformable 3D Gaussian Reconstruction From Monocular Videos [52.46386528202226]
Deformable Gaussian Splats Large Reconstruction Model (DGS-LRM)を紹介する。
動的シーンのモノクロポーズビデオから変形可能な3Dガウススプラットを予測する最初のフィードフォワード法である。
最先端のモノクロビデオ3D追跡手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - R3D2: Realistic 3D Asset Insertion via Diffusion for Autonomous Driving Simulation [78.26308457952636]
本稿では,自律運転シミュレーションの限界を克服する軽量な1ステップ拡散モデルであるR3D2を紹介する。
シャドウや一貫した照明など、妥当なレンダリング効果を生み出すことで、既存のシーンに完全な3Dアセットを現実的に挿入することができる。
R3D2は挿入されたアセットの現実性を大幅に向上させ,テキストから3Dへのアセット挿入やクロスシーン/データセットオブジェクト転送といったユースケースを可能にした。
論文 参考訳(メタデータ) (2025-06-09T14:50:19Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images [39.0780707100513]
そこで本研究では,実世界の画像からキネマティック構造と動的構造を合成したシミュレーションシーンを生成するエンドツーエンドパイプラインを提案する。
そこで本研究は,大規模シミュレーション環境のためのパイプラインと,ロバストなロボット制御ポリシをトレーニングするための統合システムの両方を提供する。
論文 参考訳(メタデータ) (2024-05-19T20:01:29Z) - Reconstructing Objects in-the-wild for Realistic Sensor Simulation [41.55571880832957]
我々は,スパース・イン・ザ・ワイルドデータから正確な幾何学的および現実的な外観を推定する新しい手法であるNeuSimを提案する。
物体の外観を物理にインスパイアされた頑健な反射率表現でモデル化し,実測データに有効である。
実験の結果,NeuSimはスパース・トレーニング・ビューを持つ難解なシナリオに対して,強力なビュー合成性能を有することがわかった。
論文 参考訳(メタデータ) (2023-11-09T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。