論文の概要: Beyond Inpainting: Unleash 3D Understanding for Precise Camera-Controlled Video Generation
- arxiv url: http://arxiv.org/abs/2601.10214v1
- Date: Thu, 15 Jan 2026 09:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.079118
- Title: Beyond Inpainting: Unleash 3D Understanding for Precise Camera-Controlled Video Generation
- Title(参考訳): インペインティングを超えて: 精密カメラによるビデオ生成のためのアンリーシュ3D理解
- Authors: Dong-Yu Chen, Yixin Guo, Shuojin Yang, Tai-Jiang Mu, Shi-Min Hu,
- Abstract要約: 正確なカメラ制御性を備えたビデオ再レンダリングフレームワークであるDepthDirectorを提案する。
本手法は, カメラ制御ガイダンスとして, 鮮明な3次元映像から深度映像を活用することにより, 新規なカメラ軌道下での入力映像のダイナミックなシーンを忠実に再現することができる。
- 参考スコア(独自算出の注目度): 21.084121261693365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera control has been extensively studied in conditioned video generation; however, performing precisely altering the camera trajectories while faithfully preserving the video content remains a challenging task. The mainstream approach to achieving precise camera control is warping a 3D representation according to the target trajectory. However, such methods fail to fully leverage the 3D priors of video diffusion models (VDMs) and often fall into the Inpainting Trap, resulting in subject inconsistency and degraded generation quality. To address this problem, we propose DepthDirector, a video re-rendering framework with precise camera controllability. By leveraging the depth video from explicit 3D representation as camera-control guidance, our method can faithfully reproduce the dynamic scene of an input video under novel camera trajectories. Specifically, we design a View-Content Dual-Stream Condition mechanism that injects both the source video and the warped depth sequence rendered under the target viewpoint into the pretrained video generation model. This geometric guidance signal enables VDMs to comprehend camera movements and leverage their 3D understanding capabilities, thereby facilitating precise camera control and consistent content generation. Next, we introduce a lightweight LoRA-based video diffusion adapter to train our framework, fully preserving the knowledge priors of VDMs. Additionally, we construct a large-scale multi-camera synchronized dataset named MultiCam-WarpData using Unreal Engine 5, containing 8K videos across 1K dynamic scenes. Extensive experiments show that DepthDirector outperforms existing methods in both camera controllability and visual quality. Our code and dataset will be publicly available.
- Abstract(参考訳): カメラ制御は、条件付きビデオ生成において広く研究されてきたが、映像コンテンツを忠実に保存しながら、正確にカメラ軌跡を変更することは難しい課題である。
正確なカメラ制御を実現するための主流のアプローチは、ターゲットの軌跡に応じて3D表現をワープすることである。
しかし、このような手法はビデオ拡散モデル(VDM)の3D先行を十分に活用できず、しばしばインペインティングトラップ(英語版)に陥り、不整合と劣化した生成品質をもたらす。
この問題に対処するために,正確なカメラ制御性を備えたビデオ再レンダリングフレームワークであるDepthDirectorを提案する。
本手法は, カメラ制御ガイダンスとして, 鮮明な3次元映像から深度映像を活用することにより, 新規なカメラ軌道下での入力映像のダイナミックなシーンを忠実に再現することができる。
具体的には、ターゲット視点下でレンダリングされたソースビデオとワープ深度シーケンスの両方を予め訓練されたビデオ生成モデルに注入するビューコンテンツデュアルストリーム条件機構を設計する。
この幾何学的誘導信号により、VDMはカメラの動きを理解し、その3D理解能力を活用し、正確なカメラ制御と一貫したコンテンツ生成を容易にする。
次に、VDMの知識を十分に保存し、私たちのフレームワークをトレーニングするための軽量なLoRAベースのビデオ拡散アダプタを提案する。
さらに,Unreal Engine 5 を用いて,MultiCam-WarpData という大規模マルチカメラ同期データセットを構築した。
広汎な実験により、DepthDirectorは、カメラの制御性と視覚的品質の両方において、既存の手法よりも優れていることが示された。
コードとデータセットは公開されます。
関連論文リスト
- Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians [7.051077403685518]
人間は、1つの画像だけを与えられたシーンの将来のダイナミクスを予測するのに優れています。
この能力を模倣できるビデオ生成モデルは、インテリジェントシステムにとって不可欠なコンポーネントである。
最近のアプローチでは、単一画像条件のビデオ生成における時間的コヒーレンスと3次元の整合性が改善されている。
論文 参考訳(メタデータ) (2026-01-02T13:04:47Z) - CETCAM: Camera-Controllable Video Generation via Consistent and Extensible Tokenization [32.42754288735215]
CETCAMはカメラ制御可能なビデオ生成フレームワークである。
一貫性のあるトークン化スキームによって、カメラアノテーションは不要になる。
多様な生のビデオデータから堅牢なカメラ制御性を学び、高忠実度データセットを使用してきめ細かい視覚的品質を洗練する。
論文 参考訳(メタデータ) (2025-12-22T04:21:39Z) - Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。