論文の概要: FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis
- arxiv url: http://arxiv.org/abs/2502.08244v2
- Date: Tue, 25 Mar 2025 00:18:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:13:57.609305
- Title: FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis
- Title(参考訳): FloVD: カメラ制御ビデオ合成のためのビデオ拡散モデル
- Authors: Wonjoon Jin, Qi Dai, Chong Luo, Seung-Hwan Baek, Sunghyun Cho,
- Abstract要約: FloVDは、カメラ制御可能なビデオ生成のためのビデオ拡散モデルである。
光の流れはビデオから直接推定できます
背景動きを利用した詳細なカメラ制御が可能となる。
- 参考スコア(独自算出の注目度): 47.281377781348596
- License:
- Abstract: We present FloVD, a novel video diffusion model for camera-controllable video generation. FloVD leverages optical flow to represent the motions of the camera and moving objects. This approach offers two key benefits. Since optical flow can be directly estimated from videos, our approach allows for the use of arbitrary training videos without ground-truth camera parameters. Moreover, as background optical flow encodes 3D correlation across different viewpoints, our method enables detailed camera control by leveraging the background motion. To synthesize natural object motion while supporting detailed camera control, our framework adopts a two-stage video synthesis pipeline consisting of optical flow generation and flow-conditioned video synthesis. Extensive experiments demonstrate the superiority of our method over previous approaches in terms of accurate camera control and natural object motion synthesis.
- Abstract(参考訳): 我々は、カメラ制御可能なビデオ生成のための新しいビデオ拡散モデルであるFloVDを提案する。
FloVDは光学フローを利用してカメラの動きと動く物体を表現する。
このアプローチには2つの大きなメリットがあります。
光学的フローはビデオから直接推定できるので,地中カメラパラメータを使わずに任意のトレーニングビデオを使用することが可能である。
さらに、背景光流は異なる視点で3次元相関を符号化するので、背景運動を利用して詳細なカメラ制御が可能となる。
詳細なカメラ制御をサポートしながら、自然な物体の動きを合成するために、我々は、光フロー生成とフローコンディショニングビデオ合成からなる2段階のビデオ合成パイプラインを採用している。
広汎な実験により, 従来手法よりも精度の高いカメラ制御と自然物体の運動合成において, 提案手法の優位性を実証した。
関連論文リスト
- MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - Video Interpolation by Event-driven Anisotropic Adjustment of Optical
Flow [11.914613556594725]
イベント駆動型光フローの異方性調整によるビデオフレームのエンドツーエンドトレーニング手法A2OFを提案する。
具体的には、2つのフレーム間の複雑な動きをモデル化できる中間光学フローのための光フロー分布マスクを生成するためにイベントを使用する。
論文 参考訳(メタデータ) (2022-08-19T02:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。