論文の概要: LaVR: Scene Latent Conditioned Generative Video Trajectory Re-Rendering using Large 4D Reconstruction Models
- arxiv url: http://arxiv.org/abs/2601.14674v1
- Date: Wed, 21 Jan 2026 05:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.24547
- Title: LaVR: Scene Latent Conditioned Generative Video Trajectory Re-Rendering using Large 4D Reconstruction Models
- Title(参考訳): LaVR: 大規模4次元再構成モデルを用いた潜時条件付き映像軌道再レンダリング
- Authors: Mingyang Xie, Numair Khan, Tianfu Wang, Naina Dhingra, Seonghyeon Nam, Haitao Yang, Zhuo Hui, Christopher Metzler, Andrea Vedaldi, Hamed Pirsiavash, Lei Luo,
- Abstract要約: モノクロビデオが与えられた場合、ビデオの再レンダリングの目的は、新しいカメラの軌跡からシーンのビューを生成することである。
既存の方法は2つの異なる課題に直面している。
大規模な4次元再構成モデルの潜在空間に埋め込まれた暗黙的幾何学的知識を用いて,これらの課題に対処することを提案する。
- 参考スコア(独自算出の注目度): 52.656349227001925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a monocular video, the goal of video re-rendering is to generate views of the scene from a novel camera trajectory. Existing methods face two distinct challenges. Geometrically unconditioned models lack spatial awareness, leading to drift and deformation under viewpoint changes. On the other hand, geometrically-conditioned models depend on estimated depth and explicit reconstruction, making them susceptible to depth inaccuracies and calibration errors. We propose to address these challenges by using the implicit geometric knowledge embedded in the latent space of a large 4D reconstruction model to condition the video generation process. These latents capture scene structure in a continuous space without explicit reconstruction. Therefore, they provide a flexible representation that allows the pretrained diffusion prior to regularize errors more effectively. By jointly conditioning on these latents and source camera poses, we demonstrate that our model achieves state-of-the-art results on the video re-rendering task. Project webpage is https://lavr-4d-scene-rerender.github.io/
- Abstract(参考訳): モノクロビデオが与えられた場合、ビデオの再レンダリングの目的は、新しいカメラの軌跡からシーンのビューを生成することである。
既存の方法は2つの異なる課題に直面している。
幾何学的に無条件のモデルは空間的認識を欠き、視点変化の下でのドリフトと変形をもたらす。
一方、幾何条件付きモデルは推定深度と明示的な再構成に依存しており、深度不正確さや校正誤差の影響を受けやすい。
本稿では,大規模な4次元再構成モデルの潜在空間に埋め込まれた暗黙的幾何学的知識を用いて,映像生成プロセスの条件付けを行うことにより,これらの課題に対処することを提案する。
これらの潜伏者は、明示的な再構成なしに連続した空間でシーン構造をキャプチャする。
したがって、より効果的にエラーを正規化する前に事前訓練された拡散を可能にするフレキシブルな表現を提供する。
これらの潜像とソースカメラのポーズを共同で条件付けすることにより,映像再レンダリング作業において,我々のモデルが最先端の成果を達成できることを実証する。
プロジェクトのWebページはhttps://lavr-4d-scene-rerender.github.io/
関連論文リスト
- SEE4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting [83.5106058182799]
SEE4Dは, カジュアルビデオから4次元世界モデリングを行うための, ポーズのないトラジェクトリ・ツー・カメラ・フレームワークである。
モデル内のビュー条件ビデオは、現実的に合成された画像を認知する前に、ロバストな幾何学を学ぶために訓練される。
クロスビュービデオ生成とスパース再構成のベンチマークでSee4Dを検証した。
論文 参考訳(メタデータ) (2025-10-30T17:59:39Z) - Diffuman4D: 4D Consistent Human View Synthesis from Sparse-View Videos with Spatio-Temporal Diffusion Models [83.76517697509156]
本稿では、疎視映像を入力として高忠実度視点合成の課題に対処する。
本研究では, 4次元拡散モデルの視時整合性を高めるために, 反復的スライディング・デノナイジング法を提案する。
提案手法は,高品質で一貫したノベルビュー映像を合成し,既存の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-17T17:59:17Z) - Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting [26.54811754399946]
そこで我々は,視線を増大させることにより4次元モノクロ映像合成を向上させる新しいアプローチであるVivid4Dを紹介した。
これは、観察されたビューを新たな視点に歪曲するビデオインペインティングタスクとして、ビュー増強を再構成する。
実験により,本手法はモノラルな4次元シーンの再現と完了を効果的に改善することが示された。
論文 参考訳(メタデータ) (2025-04-15T11:38:14Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model [76.64071133839862]
モノクロRGBビデオから一般的なデフォーミングシーンをキャプチャすることは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠である。
提案手法であるUb4Dは、大きな変形を処理し、閉塞領域での形状補完を行い、可変ボリュームレンダリングを用いて、単眼のRGBビデオを直接操作することができる。
我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状が明らかに改善されていることを実証する。
論文 参考訳(メタデータ) (2022-06-16T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。