論文の概要: Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation
- arxiv url: http://arxiv.org/abs/2512.17040v1
- Date: Thu, 18 Dec 2025 20:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.156627
- Title: Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation
- Title(参考訳): カメラ制御ビデオ生成のためのロバストコンディショニングとしての無限ホログラフィ
- Authors: Min-Jung Kim, Jeongho Kim, Hoiyeong Jin, Junha Hyung, Jaegul Choo,
- Abstract要約: InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
- 参考スコア(独自算出の注目度): 49.12018869332346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in video diffusion models has spurred growing interest in camera-controlled novel-view video generation for dynamic scenes, aiming to provide creators with cinematic camera control capabilities in post-production. A key challenge in camera-controlled video generation is ensuring fidelity to the specified camera pose, while maintaining view consistency and reasoning about occluded geometry from limited observations. To address this, existing methods either train trajectory-conditioned video generation model on trajectory-video pair dataset, or estimate depth from the input video to reproject it along a target trajectory and generate the unprojected regions. Nevertheless, existing methods struggle to generate camera-pose-faithful, high-quality videos for two main reasons: (1) reprojection-based approaches are highly susceptible to errors caused by inaccurate depth estimation; and (2) the limited diversity of camera trajectories in existing datasets restricts learned models. To address these limitations, we present InfCam, a depth-free, camera-controlled video-to-video generation framework with high pose fidelity. The framework integrates two key components: (1) infinite homography warping, which encodes 3D camera rotations directly within the 2D latent space of a video diffusion model. Conditioning on this noise-free rotational information, the residual parallax term is predicted through end-to-end training to achieve high camera-pose fidelity; and (2) a data augmentation pipeline that transforms existing synthetic multiview datasets into sequences with diverse trajectories and focal lengths. Experimental results demonstrate that InfCam outperforms baseline methods in camera-pose accuracy and visual fidelity, generalizing well from synthetic to real-world data. Link to our project page:https://emjay73.github.io/InfCam/
- Abstract(参考訳): 映像拡散モデルの最近の進歩は、動的シーンのためのカメラ制御されたノベルビュービデオ生成への関心の高まりに拍車をかけた。
カメラ制御ビデオ生成における重要な課題は、視野の一貫性を維持しながら、限られた観測から排除された幾何学を推論しながら、特定のカメラのポーズに対する忠実性を確保することである。
これを解決するために、既存の方法では、トラジェクタ-ビデオペアデータセット上でトラジェクタ-条件付きビデオ生成モデルをトレーニングするか、または入力ビデオから深さを推定してターゲットトラジェクタに沿って再プロジェクタし、未計画領域を生成する。
それにもかかわらず、既存の手法では、(1)再投影に基づくアプローチは、不正確な深度推定によるエラーの影響を受けやすいこと、(2)既存のデータセットにおけるカメラトラジェクトリの限られた多様性は、学習モデルを制限すること、の2つの主な理由から、カメラ目的の高品質なビデオを生成するのに苦労している。
これらの制約に対処するために、高ポーズ忠実度で奥行きのないカメラ制御ビデオ生成フレームワークInfCamを提案する。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
このノイズフリーな回転情報に基づいて、残差項をエンドツーエンドのトレーニングで予測し、高いカメラ目的の忠実度を達成するとともに、(2)既存の合成多視点データセットを多様な軌跡と焦点距離を持つシーケンスに変換するデータ拡張パイプラインを作成した。
実験により、InfCamは、カメラの精度と視覚的忠実度においてベースライン法よりも優れており、合成データから実世界のデータまでよく一般化されていることが示された。
プロジェクトページへのリンク:https://emjay73.github.io/InfCam/
関連論文リスト
- DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation [51.66285725139235]
カメラ制御ビデオ生成のための新しいエンドツーエンド拡散モデルであるDualCamCtrlを提案する。
本稿では、カメラ一貫性のあるRGBと深度シーケンスを相互に生成するデュアルブランチフレームワークを提案する。
DualCamCtrlは、より一貫したカメラ制御ビデオ生成を実現する。
論文 参考訳(メタデータ) (2025-11-28T12:19:57Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control [12.80337762745075]
RealCam-I2Vはモノクロメートル法深度推定を統合する新しいビデオ生成フレームワークである。
トレーニング中、再構成された3Dシーンは、メトリックスケールに対するカメラパラメータのスケーリングを可能にする。
RealCam-I2Vは、RealEstate10Kおよびドメイン外画像の制御性とビデオ品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-14T10:21:49Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。