論文の概要: Martian World Models: Controllable Video Synthesis with Physically Accurate 3D Reconstructions
- arxiv url: http://arxiv.org/abs/2507.07978v1
- Date: Thu, 10 Jul 2025 17:54:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.526695
- Title: Martian World Models: Controllable Video Synthesis with Physically Accurate 3D Reconstructions
- Title(参考訳): 火星世界モデル:物理的に正確な3次元再構成による制御可能なビデオ合成
- Authors: Longfei Li, Zhiwen Fan, Wenyan Cong, Xinhang Liu, Yuyang Yin, Matt Foutter, Panwang Pan, Chenyu You, Yue Wang, Zhangyang Wang, Yao Zhao, Marco Pavone, Yunchao Wei,
- Abstract要約: 本研究では,実際のステレオナビゲーション画像から3次元火星環境を再構築するデータキュレーションパイプラインを提案する。
火星の地形ビデオジェネレータMarsGenは、データにエンコードされた3D構造と視覚的にリアルで幾何学的に整合した新しいビデオを合成する。
提案手法は、地上データセットで訓練された映像合成モデルより優れ、優れた視覚的忠実度と3次元構造整合性を実現する。
- 参考スコア(独自算出の注目度): 116.56517155163716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing realistic Martian landscape videos is crucial for mission rehearsal and robotic simulation. However, this task poses unique challenges due to the scarcity of high-quality Martian data and the significant domain gap between Martian and terrestrial imagery. To address these challenges, we propose a holistic solution composed of two key components: 1) A data curation pipeline Multimodal Mars Synthesis (M3arsSynth), which reconstructs 3D Martian environments from real stereo navigation images, sourced from NASA's Planetary Data System (PDS), and renders high-fidelity multiview 3D video sequences. 2) A Martian terrain video generator, MarsGen, which synthesizes novel videos visually realistic and geometrically consistent with the 3D structure encoded in the data. Our M3arsSynth engine spans a wide range of Martian terrains and acquisition dates, enabling the generation of physically accurate 3D surface models at metric-scale resolution. MarsGen, fine-tuned on M3arsSynth data, synthesizes videos conditioned on an initial image frame and, optionally, camera trajectories or textual prompts, allowing for video generation in novel environments. Experimental results show that our approach outperforms video synthesis models trained on terrestrial datasets, achieving superior visual fidelity and 3D structural consistency.
- Abstract(参考訳): 火星の風景映像の合成は、ミッションのリハーサルとロボットシミュレーションに欠かせない。
しかし、この課題は、高品質な火星データの不足と、火星画像と地球画像の間の大きな領域ギャップのために、ユニークな課題を生んでいる。
これらの課題に対処するため、我々は2つの主要な構成要素からなる全体論的解を提案する。
1)データキュレーションパイプライン マルチモーダル火星合成(M3arsSynth)は、NASAのプラネタリー・データ・システム(PDS)から得られた実際のステレオナビゲーション画像から3次元火星環境を再構成し、高忠実度なマルチビュー3Dビデオシーケンスをレンダリングする。
2) 火星の地形ビデオジェネレータであるMarsGenは、データに符号化された3D構造と視覚的にリアルで幾何学的に整合した新しい映像を合成する。
我々のM3arsSynthエンジンは、火星の広い地形と取得日数にまたがっており、計量スケールの解像度で物理的に正確な3D表面モデルを生成することができる。
MarsGenはM3arsSynthのデータに基づいて微調整され、初期画像フレームとオプションでカメラの軌跡やテキストのプロンプトに設定されたビデオを合成し、新しい環境でのビデオ生成を可能にする。
実験の結果,本手法は地上のデータセットで訓練した映像合成モデルより優れており,より優れた視覚的忠実度と3次元構造整合性を実現していることがわかった。
関連論文リスト
- Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。
既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文 参考訳(メタデータ) (2025-06-04T17:59:04Z) - Seeing World Dynamics in a Nutshell [132.79736435144403]
NutWorldはモノクロ動画をダイナミックな3D表現に変換するフレームワークである。
我々は,NutWorldがリアルタイムにダウンストリームアプリケーションを実現しつつ,高忠実度ビデオ再構成品質を実現することを実証した。
論文 参考訳(メタデータ) (2025-02-05T18:59:52Z) - Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。
Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-06-25T14:42:51Z) - MuSHRoom: Multi-Sensor Hybrid Room Dataset for Joint 3D Reconstruction and Novel View Synthesis [26.710960922302124]
実世界のマルチセンサーハイブリッドルームデータセット(MuSHRoom)を提案する。
我々のデータセットは、エキサイティングな課題を示し、最先端の手法がコスト効率が高く、ノイズの多いデータやデバイスに対して堅牢であることを要求する。
共同3Dメッシュ再構成と新しいビュー合成のためのデータセット上で、いくつかの有名なパイプラインをベンチマークする。
論文 参考訳(メタデータ) (2023-11-05T21:46:12Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - MaRF: Representing Mars as Neural Radiance Fields [1.4680035572775534]
MARFは火星の環境を合成するためのフレームワークで、ローバーカメラの画像を何枚か集めている。
惑星地質学、シミュレートされた航法、形状解析などの惑星表面探査における重要な課題に対処する。
実験では,キュリオシティ・ローバー,パーセヴァンス・ローバー,インジェニティ・ヘリコプターによって捕獲された火星の実際のデータセットから生成された環境を実証した。
論文 参考訳(メタデータ) (2022-12-03T18:58:00Z) - UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body
Decoupling 3D Model [58.70130563417079]
我々は,身体の発生を自由に制御できる,一連の分離されたパラメータを持つ新しい3次元人体モデルを導入する。
既存の手動注釈付きDensePose-COCOデータセットと比較して、合成されたUltraPoseは、アノテーションのコストと誤差を伴わずに、超高密度な画像-地上対応を持つ。
論文 参考訳(メタデータ) (2021-10-28T16:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。