論文の概要: CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.10592v1
- Date: Thu, 13 Mar 2025 17:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:31.560837
- Title: CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models
- Title(参考訳): CameraCtrl II: カメラ制御ビデオ拡散モデルによる動的シーン探索
- Authors: Hao He, Ceyuan Yang, Shanchuan Lin, Yinghao Xu, Meng Wei, Liangke Gui, Qi Zhao, Gordon Wetzstein, Lu Jiang, Hongsheng Li,
- Abstract要約: CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
- 参考スコア(独自算出の注目度): 89.63787060844409
- License:
- Abstract: This paper introduces CameraCtrl II, a framework that enables large-scale dynamic scene exploration through a camera-controlled video diffusion model. Previous camera-conditioned video generative models suffer from diminished video dynamics and limited range of viewpoints when generating videos with large camera movement. We take an approach that progressively expands the generation of dynamic scenes -- first enhancing dynamic content within individual video clip, then extending this capability to create seamless explorations across broad viewpoint ranges. Specifically, we construct a dataset featuring a large degree of dynamics with camera parameter annotations for training while designing a lightweight camera injection module and training scheme to preserve dynamics of the pretrained models. Building on these improved single-clip techniques, we enable extended scene exploration by allowing users to iteratively specify camera trajectories for generating coherent video sequences. Experiments across diverse scenarios demonstrate that CameraCtrl Ii enables camera-controlled dynamic scene synthesis with substantially wider spatial exploration than previous approaches.
- Abstract(参考訳): 本稿では,カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を実現するフレームワークであるCameraCtrl IIを紹介する。
従来のカメラコンディショニングビデオ生成モデルは、大きなカメラムーブメントでビデオを生成する場合、ビデオのダイナミクスが低下し、視点の幅が限られていた。
まず、個々のビデオクリップ内で動的コンテンツを拡張し、次にこの機能を拡張して、広い視点範囲にわたるシームレスな探索を可能にします。
具体的には、トレーニング用カメラパラメータアノテーションを多用し、トレーニング用軽量カメラインジェクションモジュールとトレーニングスキームを設計し、トレーニング済みモデルのダイナミクスを保存したデータセットを構築する。
これらの改良されたシングルクリップ技術に基づいて、ユーザーがコヒーレントなビデオシーケンスを生成するためのカメラトラジェクトリを反復的に指定し、拡張シーン探索を可能にする。
様々なシナリオにわたる実験により、CameraCtrl Iiはカメラ制御されたダイナミックシーン合成を可能にし、従来のアプローチよりもはるかに広い空間探索を可能にした。
関連論文リスト
- SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints [43.14498014617223]
マルチカメラビデオ生成のための事前訓練されたテキスト・ツー・ビデオモデルを強化するプラグイン・アンド・プレイ・モジュールを提案する。
異なる視点における外観と幾何の整合性を維持するために,マルチビュー同期モジュールを導入する。
提案手法は,新しい視点からビデオを再レンダリングするなど,興味をそそる拡張を可能にする。
論文 参考訳(メタデータ) (2024-12-10T18:55:17Z) - Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文 参考訳(メタデータ) (2024-12-08T18:59:54Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Training-free Camera Control for Video Generation [15.79168688275606]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。