論文の概要: Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM
- arxiv url: http://arxiv.org/abs/2504.12048v1
- Date: Wed, 16 Apr 2025 13:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:39:27.555478
- Title: Modular-Cam: Modular Dynamic Camera-view Video Generation with LLM
- Title(参考訳): Modular-Cam:LLMによる動的カメラビュービデオ生成
- Authors: Zirui Pan, Xin Wang, Yipeng Zhang, Hong Chen, Kwan Man Cheng, Yaofei Wu, Wenwu Zhu,
- Abstract要約: 本稿では,新しいテキスト・ビデオ生成手法,すなわちModular-Camを提案する。
与えられた複雑なプロンプトをよりよく理解するために、大きな言語モデルを用いてユーザ命令を解析する。
カメラビューにマッチするダイナミックなシーンを含む映像を生成するために,広範に使用されている時間変換器を組み込んだ。
- 参考スコア(独自算出の注目度): 43.889033468684445
- License:
- Abstract: Text-to-Video generation, which utilizes the provided text prompt to generate high-quality videos, has drawn increasing attention and achieved great success due to the development of diffusion models recently. Existing methods mainly rely on a pre-trained text encoder to capture the semantic information and perform cross attention with the encoded text prompt to guide the generation of video. However, when it comes to complex prompts that contain dynamic scenes and multiple camera-view transformations, these methods can not decompose the overall information into separate scenes, as well as fail to smoothly change scenes based on the corresponding camera-views. To solve these problems, we propose a novel method, i.e., Modular-Cam. Specifically, to better understand a given complex prompt, we utilize a large language model to analyze user instructions and decouple them into multiple scenes together with transition actions. To generate a video containing dynamic scenes that match the given camera-views, we incorporate the widely-used temporal transformer into the diffusion model to ensure continuity within a single scene and propose CamOperator, a modular network based module that well controls the camera movements. Moreover, we propose AdaControlNet, which utilizes ControlNet to ensure consistency across scenes and adaptively adjusts the color tone of the generated video. Extensive qualitative and quantitative experiments prove our proposed Modular-Cam's strong capability of generating multi-scene videos together with its ability to achieve fine-grained control of camera movements. Generated results are available at https://modular-cam.github.io.
- Abstract(参考訳): 提供されるテキストプロンプトを利用して高品質な動画を生成するテキスト・ツー・ビデオ・ジェネレーションが注目され、近年の拡散モデルの発展により大きな成功を収めている。
既存の方法は、主に訓練済みのテキストエンコーダに頼り、セマンティック情報をキャプチャし、エンコードされたテキストプロンプトと交差してビデオの生成を誘導する。
しかし、ダイナミックなシーンと複数のカメラビュー変換を含む複雑なプロンプトでは、これらの手法は全体情報を別々のシーンに分解することができず、対応するカメラビューに基づいてスムーズなシーン変更ができない。
これらの問題を解決するために,新しい手法,すなわちModular-Camを提案する。
具体的には、与えられた複雑なプロンプトをよりよく理解するために、大きな言語モデルを用いてユーザ命令を分析し、遷移アクションとともに複数のシーンに分離する。
カメラビューにマッチする動的シーンを含むビデオを生成するために,広範に使用されている時間変換器を拡散モデルに組み込んで,単一シーン内で連続性を確保するとともに,カメラの動きをよく制御するモジュールモジュールCamOperatorを提案する。
さらに,AdaControlNetを提案する。このAdaControlNetは,シーン間の一貫性を確保し,生成された映像の色調を適応的に調整する。
広範に定性的かつ定量的な実験により、カメラの動きのきめ細かい制御を実現するとともに、マルチシーンビデオを生成するモジュールカメラの強い能力が証明された。
生成された結果はhttps://modular-cam.github.ioで公開されている。
関連論文リスト
- BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。
我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。
U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文 参考訳(メタデータ) (2025-01-13T19:17:06Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Training-free Camera Control for Video Generation [15.79168688275606]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - CameraCtrl: Enabling Camera Control for Text-to-Video Generation [86.36135895375425]
ユーザーがコンテンツをより正確に作成し、編集できるようにするため、制御性はビデオ生成において重要な役割を果たす。
しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの制御を欠いている。
我々は、ビデオ拡散モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
論文 参考訳(メタデータ) (2024-04-02T16:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。