論文の概要: 4D Driving Scene Generation With Stereo Forcing
- arxiv url: http://arxiv.org/abs/2509.20251v1
- Date: Wed, 24 Sep 2025 15:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.886077
- Title: 4D Driving Scene Generation With Stereo Forcing
- Title(参考訳): ステレオ力による4D運転シーン生成
- Authors: Hao Lu, Zhuang Ma, Guangfeng Jiang, Wenhang Ge, Bohan Li, Yuzhan Cai, Wenzhao Zheng, Yunpeng Zhang, Yingcong Chen,
- Abstract要約: 現在の生成モデルは、時間外挿と空間的新規ビュー合成(NVS)をシーンごとの最適化なしで同時にサポートする動的4D駆動シーンの合成に苦慮している。
PhiGenesisは、幾何学的・時間的整合性を持った映像生成技術を拡張する4次元シーン生成のための統合フレームワークである。
- 参考スコア(独自算出の注目度): 62.47705572424127
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current generative models struggle to synthesize dynamic 4D driving scenes that simultaneously support temporal extrapolation and spatial novel view synthesis (NVS) without per-scene optimization. Bridging generation and novel view synthesis remains a major challenge. We present PhiGenesis, a unified framework for 4D scene generation that extends video generation techniques with geometric and temporal consistency. Given multi-view image sequences and camera parameters, PhiGenesis produces temporally continuous 4D Gaussian splatting representations along target 3D trajectories. In its first stage, PhiGenesis leverages a pre-trained video VAE with a novel range-view adapter to enable feed-forward 4D reconstruction from multi-view images. This architecture supports single-frame or video inputs and outputs complete 4D scenes including geometry, semantics, and motion. In the second stage, PhiGenesis introduces a geometric-guided video diffusion model, using rendered historical 4D scenes as priors to generate future views conditioned on trajectories. To address geometric exposure bias in novel views, we propose Stereo Forcing, a novel conditioning strategy that integrates geometric uncertainty during denoising. This method enhances temporal coherence by dynamically adjusting generative influence based on uncertainty-aware perturbations. Our experimental results demonstrate that our method achieves state-of-the-art performance in both appearance and geometric reconstruction, temporal generation and novel view synthesis (NVS) tasks, while simultaneously delivering competitive performance in downstream evaluations. Homepage is at \href{https://jiangxb98.github.io/PhiGensis}{PhiGensis}.
- Abstract(参考訳): 現在の生成モデルは、時間外挿と空間的新規ビュー合成(NVS)をシーンごとの最適化なしで同時にサポートする動的4D駆動シーンの合成に苦慮している。
ブリッジ・ジェネレーションと新しいビュー・シンセサイザーは依然として大きな課題である。
PhiGenesisは、幾何学的・時間的整合性を持った映像生成技術を拡張する4次元シーン生成のための統合フレームワークである。
多視点画像シーケンスとカメラパラメータを与えられたPhiGenesisは、ターゲット3D軌道に沿って時間的に連続した4Dガウススプラッティング表現を生成する。
最初の段階では、PhiGenesisは、トレーニング済みのビデオVAEと新しいレンジビューアダプタを利用して、マルチビューイメージからのフィードフォワード4D再構成を可能にする。
このアーキテクチャはシングルフレームまたはビデオ入力をサポートし、幾何学、意味論、動きを含む完全な4Dシーンを出力する。
第2段階では、PhiGenesisは幾何学誘導ビデオ拡散モデルを導入し、レンダリングされた歴史的4Dシーンを先行として使用して、軌跡に条件付けされた将来のビューを生成する。
新規な視点における幾何的露出バイアスに対処するために,デノナイジング中の幾何的不確実性を統合する新しい条件付け戦略であるStereo Forcingを提案する。
不確実性を考慮した摂動に基づく生成的影響を動的に調整することにより、時間的コヒーレンスを高める。
実験により,提案手法は外観,幾何学的再構成,時間生成,新規ビュー合成(NVS)タスクにおいて,下流評価における競合性能を同時に実現し,最先端の性能を達成できることが実証された。
ホームページは \href{https://jiangxb98.github.io/PhiGensis}{PhiGensis} にある。
関連論文リスト
- Dream4D: Lifting Camera-Controlled I2V towards Spatiotemporally Consistent 4D Generation [3.1852855132066673]
現在のアプローチは、複雑なシーンダイナミクスを処理しながら、ビューの一貫性を維持するのに苦労することが多い。
このフレームワークは、リッチな時間的先行ビデオ拡散モデルと、再構成モデルの幾何学的認識の両方を活用する最初のものである。
これは4D生成を著しく促進し、既存の方法よりも高い品質(mPSNR、mSSIMなど)を示す。
論文 参考訳(メタデータ) (2025-08-11T08:55:47Z) - Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [83.76517697509156]
本稿では、疎視映像を入力として高忠実度視点合成の課題に対処する。
本研究では, 4次元拡散モデルの視時整合性を高めるために, 反復的スライディング・デノナイジング法を提案する。
提案手法は,高品質で一貫したノベルビュー映像を合成し,既存の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-17T17:59:17Z) - BulletGen: Improving 4D Reconstruction with Bullet-Time Generation [15.225127596594582]
BulletGenは、生成モデルを利用してエラーを訂正し、動的なシーン表現で行方不明情報を完成させるアプローチである。
提案手法は,静的および動的シーン成分と生成コンテンツをシームレスにブレンドし,新しいビュー合成と2D/3Dトラッキングの両タスクの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-06-23T13:03:42Z) - 4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation [66.20991603309054]
本稿では,映像フレームの4次元時間格子と3次元ガウス粒子の時間ステップ毎にフィードフォワードアーキテクチャを用いて計算可能な最初のフレームワークを提案する。
まず,2ストリーム設計において,空間的および時間的注意を連続的に,あるいは並列に行う4次元ビデオ拡散アーキテクチャを解析する。
第2部では、ガウスヘッド、カメラトークン置換アルゴリズム、追加の動的レイヤとトレーニングを導入し、既存の3D再構成アルゴリズムを拡張した。
論文 参考訳(メタデータ) (2025-06-18T23:44:59Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - DiST-4D: Disentangled Spatiotemporal Diffusion with Metric Depth for 4D Driving Scene Generation [50.01520547454224]
現在の生成モデルは、時空間外挿と空間新規ビュー合成(NVS)を同時にサポートする4次元駆動シーンの合成に苦慮している
本研究では,2つの拡散過程に分散するDiST-4Dを提案する。DST-Tは過去の観測結果から直接,将来の距離深度と多視点RGBシーケンスを予測し,DST-Sは,既存の視点でのみ空間的NVSを訓練し,サイクル整合性を実現する。
実験により、DiST-4Dは時間的予測とNVSタスクの両方において最先端のパフォーマンスを達成し、同時に計画関連評価において競合性能を提供することが示された。
論文 参考訳(メタデータ) (2025-03-19T13:49:48Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels [35.27805034331218]
単一生成ビデオから4D表現を正確に再構成する新しい再構成モデルVidu4Dを提案する。
Vidu4Dのコアとなるのは、提案した動的ガウスサーフェス(DGS)技術である。
論文 参考訳(メタデータ) (2024-05-27T04:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。