論文の概要: FreeOrbit4D: Training-Free Arbitrary Camera Redirection for Monocular Videos via Geometry-Complete 4D Reconstruction
- arxiv url: http://arxiv.org/abs/2601.18993v1
- Date: Mon, 26 Jan 2026 22:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.081838
- Title: FreeOrbit4D: Training-Free Arbitrary Camera Redirection for Monocular Videos via Geometry-Complete 4D Reconstruction
- Title(参考訳): FreeOrbit4D:Geometry-Complete 4Dリコンストラクションによる単眼ビデオのための訓練不要な任意カメラリダイレクト
- Authors: Wei Cao, Hao Zhang, Fengrui Tian, Yulun Wu, Yingying Li, Shenlong Wang, Ning Yu, Yaoyao Liu,
- Abstract要約: FreeOrbit4Dは、ビデオ生成のための構造的基盤として、幾何学的完全4Dプロキシを復元することで、幾何学的曖昧さに対処する効果的なトレーニングフリーフレームワークである。
我々の実験によると、FreeOrbit4Dは、大角リダイレクトビデオに挑戦して、より忠実なビデオを生成する。
- 参考スコア(独自算出の注目度): 40.47706321464456
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Camera redirection aims to replay a dynamic scene from a single monocular video under a user-specified camera trajectory. However, large-angle redirection is inherently ill-posed: a monocular video captures only a narrow spatio-temporal view of a dynamic 3D scene, providing highly partial observations of the underlying 4D world. The key challenge is therefore to recover a complete and coherent representation from this limited input, with consistent geometry and motion. While recent diffusion-based methods achieve impressive results, they often break down under large-angle viewpoint changes far from the original trajectory, where missing visual grounding leads to severe geometric ambiguity and temporal inconsistency. To address this, we present FreeOrbit4D, an effective training-free framework that tackles this geometric ambiguity by recovering a geometry-complete 4D proxy as structural grounding for video generation. We obtain this proxy by decoupling foreground and background reconstructions: we unproject the monocular video into a static background and geometry-incomplete foreground point clouds in a unified global space, then leverage an object-centric multi-view diffusion model to synthesize multi-view images and reconstruct geometry-complete foreground point clouds in canonical object space. By aligning the canonical foreground point cloud to the global scene space via dense pixel-synchronized 3D--3D correspondences and projecting the geometry-complete 4D proxy onto target camera viewpoints, we provide geometric scaffolds that guide a conditional video diffusion model. Extensive experiments show that FreeOrbit4D produces more faithful redirected videos under challenging large-angle trajectories, and our geometry-complete 4D proxy further opens a potential avenue for practical applications such as edit propagation and 4D data generation. Project page and code will be released soon.
- Abstract(参考訳): カメラリダイレクトは、ユーザーが指定したカメラの軌跡の下で、単一の単眼ビデオからダイナミックなシーンを再生することを目的としている。
モノクロビデオは、ダイナミックな3Dシーンの狭い時空間ビューのみを捉え、基礎となる4D世界を高度に部分的に観察する。
したがって、鍵となる課題は、この制限された入力から一貫した幾何学と運動で完全かつ一貫性のある表現を復元することである。
最近の拡散法は印象的な結果をもたらすが、しばしば元の軌跡から遠ざかる大きな角度の視点変化の下で分解され、視覚的基盤の欠如は、厳密な幾何学的曖昧さと時間的不整合をもたらす。
これを解決するために、ビデオ生成のための構造的基盤として、幾何完全4Dプロキシを復元することにより、この幾何学的曖昧さに対処する効果的なトレーニング不要フレームワークFreeOrbit4Dを提案する。
モノクロ映像を静的な背景と幾何学的不完全な前景の雲に投影し、オブジェクト中心の多視点拡散モデルを利用して多視点画像を合成し、標準オブジェクト空間における幾何学的完備な前景の雲を再構成する。
本研究では,高密度画素同期3D-3D対応により,標準的前景点雲を大域的シーン空間に整列させ,幾何学的に完備な4Dプロキシを対象カメラの視点に投影することにより,条件付きビデオ拡散モデルを導く幾何学的足場を提供する。
広汎な実験により、FreeOrbit4Dは、大きな角度の軌跡に挑戦してより忠実なリダイレクトビデオを生成することが示され、幾何学的に完全である4Dプロキシは、編集伝搬や4Dデータ生成といった実用的な応用のための潜在的な道を開く。
プロジェクトページとコードはまもなくリリースされる予定だ。
関連論文リスト
- Joint 3D Geometry Reconstruction and Motion Generation for 4D Synthesis from a Single Image [88.71287865590273]
そこでTrajScene-60Kについて紹介する。
拡散型4次元シーン軌道生成装置(4D-STraG)を提案する。
次に、4Dポイントトラック表現から任意のカメラトラジェクトリでビデオをレンダリングする4Dビュー合成モジュール(4D-Vi)を提案する。
論文 参考訳(メタデータ) (2025-12-04T17:59:10Z) - Diff4Splat: Controllable 4D Scene Generation with Latent Dynamic Reconstruction Models [79.06910348413861]
Diff4Splatは、単一の画像から制御可能で明示的な4Dシーンを合成するフィードフォワード方式である。
単一の入力画像、カメラ軌跡、オプションのテキストプロンプトが与えられた場合、Diff4Splatは外見、幾何学、動きを符号化する変形可能な3Dガウス場を直接予測する。
論文 参考訳(メタデータ) (2025-11-01T11:16:25Z) - SEE4D: Pose-Free 4D Generation via Auto-Regressive Video Inpainting [83.5106058182799]
SEE4Dは, カジュアルビデオから4次元世界モデリングを行うための, ポーズのないトラジェクトリ・ツー・カメラ・フレームワークである。
モデル内のビュー条件ビデオは、現実的に合成された画像を認知する前に、ロバストな幾何学を学ぶために訓練される。
クロスビュービデオ生成とスパース再構成のベンチマークでSee4Dを検証した。
論文 参考訳(メタデータ) (2025-10-30T17:59:39Z) - C4D: 4D Made from 3D through Dual Correspondences [77.04731692213663]
時間的対応を利用して既存の3次元再構成を4Dに拡張するフレームワークであるC4Dを紹介する。
C4Dは、短期光学フローと長期点追跡の2種類の対応をキャプチャする。
我々は、追加の移動情報を提供する動的認識ポイントトラッカーを訓練する。
論文 参考訳(メタデータ) (2025-10-16T17:59:06Z) - Can Video Diffusion Model Reconstruct 4D Geometry? [66.5454886982702]
Sora3Rは、カジュアルなビデオから4Dのポイントマップを推測するために、大きなダイナミックビデオ拡散モデルのリッチ・テンポラリなテンポラリなテンポラリな時間を利用する新しいフレームワークである。
実験により、Sora3Rはカメラのポーズと詳細なシーン形状の両方を確実に復元し、動的4D再構成のための最先端の手法と同等の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-27T01:44:46Z) - DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion [22.11178016375823]
DimensionXは、ビデオ拡散を伴う単一の画像から3Dと4Dのシーンを生成するように設計されたフレームワークである。
提案手法は,3次元シーンの空間構造と4次元シーンの時間的進化の両方が,映像フレームのシーケンスを通して効果的に表現できるという知見から始まった。
論文 参考訳(メタデータ) (2024-11-07T18:07:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。