論文の概要: EX-4D: EXtreme Viewpoint 4D Video Synthesis via Depth Watertight Mesh
- arxiv url: http://arxiv.org/abs/2506.05554v1
- Date: Thu, 05 Jun 2025 20:02:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.216689
- Title: EX-4D: EXtreme Viewpoint 4D Video Synthesis via Depth Watertight Mesh
- Title(参考訳): EX-4D:深度水密メッシュによる4Dビデオ合成
- Authors: Tao Hu, Haoyang Peng, Xiao Liu, Yuewen Ma,
- Abstract要約: EX-4DはDepth Watertight Mesh表現を通じてこれらの課題に対処する新しいフレームワークである。
この表現は、可視領域と隠蔽領域の両方を明示的にモデル化することで、頑健な幾何学的先行として機能する。
軽量なLoRAベースのビデオ拡散アダプタを用いて、高品質で物理的に整合性があり、時間的に整合した映像を合成する。
- 参考スコア(独自算出の注目度): 7.730901815595691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-quality camera-controllable videos from monocular input is a challenging task, particularly under extreme viewpoint. Existing methods often struggle with geometric inconsistencies and occlusion artifacts in boundaries, leading to degraded visual quality. In this paper, we introduce EX-4D, a novel framework that addresses these challenges through a Depth Watertight Mesh representation. The representation serves as a robust geometric prior by explicitly modeling both visible and occluded regions, ensuring geometric consistency in extreme camera pose. To overcome the lack of paired multi-view datasets, we propose a simulated masking strategy that generates effective training data only from monocular videos. Additionally, a lightweight LoRA-based video diffusion adapter is employed to synthesize high-quality, physically consistent, and temporally coherent videos. Extensive experiments demonstrate that EX-4D outperforms state-of-the-art methods in terms of physical consistency and extreme-view quality, enabling practical 4D video generation.
- Abstract(参考訳): モノクル入力から高品質のカメラ制御可能なビデオを生成することは、特に極端な視点において難しい課題である。
既存の手法は、しばしば幾何学的不整合や境界における排他的アーティファクトに悩まされ、視覚的品質が劣化する。
本稿では,Depth Watertight Mesh表現を通じてこれらの課題に対処する新しいフレームワークであるEX-4Dを紹介する。
この表現は、可視領域と隠蔽領域の両方を明示的にモデル化し、極端なカメラポーズにおける幾何整合性を確保することによって、堅牢な幾何学的先行として機能する。
ペア化されたマルチビューデータセットの欠如を克服するために,モノクロビデオのみから効果的なトレーニングデータを生成するシミュレートされたマスキング戦略を提案する。
さらに、軽量なLoRAベースのビデオ拡散アダプタを使用して、高品質で物理的に一貫性があり、時間的に一貫性のあるビデオの合成を行う。
広汎な実験により、EX-4Dは物理的整合性と極視品質の点で最先端の手法より優れており、実用的な4Dビデオ生成を可能にしている。
関連論文リスト
- Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting [26.54811754399946]
そこで我々は,視線を増大させることにより4次元モノクロ映像合成を向上させる新しいアプローチであるVivid4Dを紹介した。
これは、観察されたビューを新たな視点に歪曲するビデオインペインティングタスクとして、ビュー増強を再構成する。
実験により,本手法はモノラルな4次元シーンの再現と完了を効果的に改善することが示された。
論文 参考訳(メタデータ) (2025-04-15T11:38:14Z) - Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion [52.0192865857058]
そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。
本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-03-28T17:14:48Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - LiftImage3D: Lifting Any Single Image to 3D Gaussians with Video Generation Priors [107.83398512719981]
シングルイメージの3D再構成は、コンピュータビジョンの根本的な課題である。
遅延ビデオ拡散モデルの最近の進歩は、大規模ビデオデータから学ぶ有望な3D事前情報を提供する。
本稿では,LVDMの生成先行情報を効果的にリリースするフレームワークであるLiftImage3Dを提案する。
論文 参考訳(メタデータ) (2024-12-12T18:58:42Z) - EG4D: Explicit Generation of 4D Object without Score Distillation [105.63506584772331]
DG4Dは、スコア蒸留なしで高品質で一貫した4Dアセットを生成する新しいフレームワークである。
私たちのフレームワークは、世代品質のベースラインをかなりのマージンで上回ります。
論文 参考訳(メタデータ) (2024-05-28T12:47:22Z) - DRSM: efficient neural 4d decomposition for dynamic reconstruction in
stationary monocular cameras [21.07910546072467]
モノクロカメラにおける動的シーンの4次元分解問題に対処するための新しい枠組みを提案する。
本フレームワークでは,分解された静的・動的特徴面を用いて4次元シーンを表現し,高密度光線キャスティングによる動的領域の学習を強調する。
論文 参考訳(メタデータ) (2024-02-01T16:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。