論文の概要: Training-free Camera Control for Video Generation
- arxiv url: http://arxiv.org/abs/2406.10126v4
- Date: Tue, 25 Feb 2025 00:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:18:34.467434
- Title: Training-free Camera Control for Video Generation
- Title(参考訳): ビデオ生成のための訓練不要カメラ制御
- Authors: Chen Hou, Zhibo Chen,
- Abstract要約: 本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
- 参考スコア(独自算出の注目度): 15.79168688275606
- License:
- Abstract: We propose a training-free and robust solution to offer camera movement control for off-the-shelf video diffusion models. Unlike previous work, our method does not require any supervised finetuning on camera-annotated datasets or self-supervised training via data augmentation. Instead, it can be plug-and-play with most pretrained video diffusion models and generate camera-controllable videos with a single image or text prompt as input. The inspiration for our work comes from the layout prior that intermediate latents encode for the generated results, thus rearranging noisy pixels in them will cause the output content to relocate as well. As camera moving could also be seen as a type of pixel rearrangement caused by perspective change, videos can be reorganized following specific camera motion if their noisy latents change accordingly. Building on this, we propose CamTrol, which enables robust camera control for video diffusion models. It is achieved by a two-stage process. First, we model image layout rearrangement through explicit camera movement in 3D point cloud space. Second, we generate videos with camera motion by leveraging the layout prior of noisy latents formed by a series of rearranged images. Extensive experiments have demonstrated its superior performance in both video generation and camera motion alignment compared with other finetuned methods. Furthermore, we show the capability of CamTrol to generalize to various base models, as well as its impressive applications in scalable motion control, dealing with complicated trajectories and unsupervised 3D video generation. Videos available at https://lifedecoder.github.io/CamTrol/.
- Abstract(参考訳): 本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
従来の手法とは異なり、カメラに注釈を付けたデータセットの教師付き微調整や、データ拡張による自己教師型トレーニングは不要である。
代わりに、ほとんどの事前訓練されたビデオ拡散モデルでプラグイン&プレイでき、単一の画像またはテキストプロンプトを入力として、カメラ制御可能なビデオを生成することができる。
私たちの研究のインスピレーションは、中間ラテントが生成した結果にエンコードする以前のレイアウトから来ています。
カメラの移動は、視点の変化による画素再構成の一種と見なすことができるため、ノイズのある潜伏剤が変化すると、特定のカメラの動きに従ってビデオを再編成することができる。
そこで本研究では,ビデオ拡散モデルに対するロバストなカメラ制御を実現するCamTrolを提案する。
2段階のプロセスによって達成される。
まず,3次元点雲空間における露光カメラ移動による画像レイアウト再構成をモデル化する。
第2に、一連の並べ替え画像によって形成されるノイズの多い潜水器のレイアウトを活用することにより、カメラモーションによる映像を生成する。
広汎な実験は、他の微調整法と比較して、ビデオ生成とカメラモーションアライメントの両方において優れた性能を示した。
さらに,CamTrolの様々なベースモデルへの一般化能力や,複雑なトラジェクトリと教師なし3Dビデオ生成を扱うスケーラブルなモーションコントロールへの応用について述べる。
ビデオはhttps://lifedecoder.github.io/CamTrol/.comで公開されている。
関連論文リスト
- AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers [18.67069364925506]
本稿では,3次元カメラ動作の符号化に生成した映像を条件付けすることで,仮想3Dカメラ制御を生成ビデオに付加することを提案する。
その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。
論文 参考訳(メタデータ) (2024-05-21T20:54:27Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。
既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。
我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。