論文の概要: WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.23402v1
- Date: Sat, 27 Sep 2025 16:47:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.2065
- Title: WorldSplat: Gaussian-Centric Feed-Forward 4D Scene Generation for Autonomous Driving
- Title(参考訳): WorldSplat: 自律運転のためのガウス中心フィードフォワード4Dシーン生成
- Authors: Ziyue Zhu, Zhanqian Wu, Zhenxin Zhu, Lijun Zhou, Haiyang Sun, Bing Wan, Kun Ma, Guang Chen, Hangjun Ye, Jin Xie, jian Yang,
- Abstract要約: 4次元駆動シーン生成のための新しいフィードフォワードフレームワークである textbfWorldSplat を提案する。
提案手法は,2つのステップで一貫したマルチトラック映像を効果的に生成する。
ベンチマークデータセットを用いて行った実験は、textbfWorldSplatが高忠実で時間的に空間的に一貫した新しいビュー駆動ビデオを効果的に生成することを示した。
- 参考スコア(独自算出の注目度): 21.778139777889397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in driving-scene generation and reconstruction have demonstrated significant potential for enhancing autonomous driving systems by producing scalable and controllable training data. Existing generation methods primarily focus on synthesizing diverse and high-fidelity driving videos; however, due to limited 3D consistency and sparse viewpoint coverage, they struggle to support convenient and high-quality novel-view synthesis (NVS). Conversely, recent 3D/4D reconstruction approaches have significantly improved NVS for real-world driving scenes, yet inherently lack generative capabilities. To overcome this dilemma between scene generation and reconstruction, we propose \textbf{WorldSplat}, a novel feed-forward framework for 4D driving-scene generation. Our approach effectively generates consistent multi-track videos through two key steps: ((i)) We introduce a 4D-aware latent diffusion model integrating multi-modal information to produce pixel-aligned 4D Gaussians in a feed-forward manner. ((ii)) Subsequently, we refine the novel view videos rendered from these Gaussians using a enhanced video diffusion model. Extensive experiments conducted on benchmark datasets demonstrate that \textbf{WorldSplat} effectively generates high-fidelity, temporally and spatially consistent multi-track novel view driving videos.
- Abstract(参考訳): 近年のドライブシーン生成と再構築の進歩は、スケーラブルで制御可能なトレーニングデータを作成することにより、自動運転システムを強化する大きな可能性を示している。
既存の生成方法は、多種多様な高忠実度駆動ビデオの合成に重点を置いているが、3次元の一貫性が限られ、視界が疎いため、有用で高品質なノベルビュー合成(NVS)をサポートするのに苦労している。
逆に、最近の3D/4D再構成アプローチは現実世界の運転シーンにおいてNVSを大幅に改善した。
シーン生成と再構成の間のジレンマを克服するために,4次元駆動シーン生成のための新しいフィードフォワードフレームワークである「textbf{WorldSplat}」を提案する。
提案手法は,2つの重要なステップを通じて,一貫したマルチトラック映像を効果的に生成する。
(i)マルチモーダル情報を統合した4D対応潜伏拡散モデルを導入し,画素アラインな4Dガウスをフィードフォワード方式で生成する。
()
(II) その後, 拡張ビデオ拡散モデルを用いて, これらのガウシアンからレンダリングされた新しいビュー映像を精査する。
ベンチマークデータセットを用いて行った大規模な実験により,高忠実度・時間的・空間的に整合性のある複数トラックのビュードライビングビデオが効果的に生成されることが示された。
関連論文リスト
- Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - CVD-STORM: Cross-View Video Diffusion with Spatial-Temporal Reconstruction Model for Autonomous Driving [26.379817613036597]
CVD-STORMは時空間再構成変分オートエンコーダ(VAE)を利用したクロスビュービデオ拡散モデルである
提案手法は,まず補助的な4次元再構成タスクでVAEを微調整し,その3次元構造と時間的ダイナミクスをエンコードする能力を向上する。
実験結果から,FIDとFVDの両指標の精度向上が得られた。
論文 参考訳(メタデータ) (2025-10-09T08:41:58Z) - 4D Driving Scene Generation With Stereo Forcing [62.47705572424127]
現在の生成モデルは、時間外挿と空間的新規ビュー合成(NVS)をシーンごとの最適化なしで同時にサポートする動的4D駆動シーンの合成に苦慮している。
PhiGenesisは、幾何学的・時間的整合性を持った映像生成技術を拡張する4次元シーン生成のための統合フレームワークである。
論文 参考訳(メタデータ) (2025-09-24T15:37:17Z) - DreamDrive: Generative 4D Scene Modeling from Street View Images [55.45852373799639]
生成と再構成の利点を組み合わせた4次元時空間シーン生成手法であるDreamDriveを提案する。
具体的には,映像拡散モデルの生成力を利用して,映像参照のシーケンスを合成する。
次に、ガウシアンスプラッティングで3D一貫性のあるドライビングビデオをレンダリングします。
論文 参考訳(メタデータ) (2024-12-31T18:59:57Z) - DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation [32.19534057884047]
本稿では,世界モデルの先行モデルを利用した4次元運転シーン表現を強化するDriveDreamer4Dを紹介する。
われわれの知る限り、DriveDreamer4Dは、運転シナリオにおける4D再構成を改善するためにビデオ生成モデルを利用する最初の企業である。
論文 参考訳(メタデータ) (2024-10-17T14:07:46Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer [57.506654943449796]
動作と外観を分離するSC4Dという,効率的でスパース制御されたビデオ・ツー・4Dフレームワークを提案する。
我々の手法は、品質と効率の両面で既存の手法を超越している。
動作を多種多様な4Dエンティティにシームレスに転送する新しいアプリケーションを考案する。
論文 参考訳(メタデータ) (2024-04-04T18:05:18Z) - STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians [36.83603109001298]
STAG4Dは、事前訓練された拡散モデルと動的3次元ガウススプラッティングを組み合わせた、高忠実度4D生成のための新しいフレームワークである。
提案手法は, レンダリング品質, 時空間整合性, 生成ロバスト性において, 先行4次元生成よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T04:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。