論文の概要: CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2502.08639v1
- Date: Wed, 12 Feb 2025 18:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:48:00.516208
- Title: CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation
- Title(参考訳): CineMaster:シネマティックテキスト・ビデオ生成のための3D認識・制御可能なフレームワーク
- Authors: Qinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai,
- Abstract要約: CineMasterは3D認識と制御可能なテキスト・ビデオ生成のためのフレームワークである。
私たちのゴールは、プロの映画監督と同等のコントロール性を持つユーザーを力づけることです。
- 参考スコア(独自算出の注目度): 76.72787726497343
- License:
- Abstract: In this work, we present CineMaster, a novel framework for 3D-aware and controllable text-to-video generation. Our goal is to empower users with comparable controllability as professional film directors: precise placement of objects within the scene, flexible manipulation of both objects and camera in 3D space, and intuitive layout control over the rendered frames. To achieve this, CineMaster operates in two stages. In the first stage, we design an interactive workflow that allows users to intuitively construct 3D-aware conditional signals by positioning object bounding boxes and defining camera movements within the 3D space. In the second stage, these control signals--comprising rendered depth maps, camera trajectories and object class labels--serve as the guidance for a text-to-video diffusion model, ensuring to generate the user-intended video content. Furthermore, to overcome the scarcity of in-the-wild datasets with 3D object motion and camera pose annotations, we carefully establish an automated data annotation pipeline that extracts 3D bounding boxes and camera trajectories from large-scale video data. Extensive qualitative and quantitative experiments demonstrate that CineMaster significantly outperforms existing methods and implements prominent 3D-aware text-to-video generation. Project page: https://cinemaster-dev.github.io/.
- Abstract(参考訳): 本稿では,3D認識と制御可能なテキスト・ツー・ビデオ生成のための新しいフレームワークであるCineMasterを紹介する。
私たちのゴールは、シーン内のオブジェクトの正確な配置、3D空間におけるオブジェクトとカメラのフレキシブルな操作、レンダリングフレームの直感的なレイアウト制御といった、プロの映画監督と同等のコントロール性を持つユーザを力づけることです。
これを実現するために、CineMasterは2つの段階で動作する。
最初の段階では、オブジェクト境界ボックスの位置決めと3D空間内のカメラの動きの定義により、ユーザが直感的に3D対応の条件信号を構築することができる対話型ワークフローを設計する。
第2段階では、これらの制御信号-描画深度マップ、カメラ軌跡、オブジェクトクラスラベルを含む-は、テキスト間拡散モデルのガイダンスとして機能し、ユーザ意図のビデオコンテンツを生成する。
さらに,3次元オブジェクトモーションとカメラポーズアノテーションを付加したウィジェット内データセットの不足を克服するため,大規模ビデオデータから3次元境界ボックスとカメラ軌跡を抽出する自動データアノテーションパイプラインを慎重に構築する。
大規模な定性的および定量的実験により、CineMasterは既存の手法を著しく上回り、3D対応のテキスト・ビデオ生成を実現している。
プロジェクトページ: https://cinemaster-dev.github.io/.com
関連論文リスト
- MotionCanvas: Cinematic Shot Design with Controllable Image-to-Video Generation [65.74312406211213]
本稿では,映像生成の文脈で撮影映像を設計する手法を提案する。
I2V合成において,従来のコンピュータグラフィックスと現代映像生成技術からの洞察を結合することにより,3次元動作制御を実現する能力を示す。
論文 参考訳(メタデータ) (2025-02-06T18:41:04Z) - 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation [83.98251722144195]
制御可能なビデオ生成における従来の方法は、主に物体の動きを操作するために2D制御信号を利用する。
本稿では3次元空間におけるマルチエンタリティダイナミクスを制御する頑健なコントローラである3DTrajMasterを紹介する。
3DTrajMasterは,多心性3D動作を制御するための精度と一般化の両面において,新しい最先端技術を設定する。
論文 参考訳(メタデータ) (2024-12-10T18:55:13Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - Cinematic Behavior Transfer via NeRF-based Differentiable Filming [63.1622492808519]
既存のSLAM手法は動的シーンの制限に直面し、人間のポーズ推定はしばしば2次元投影に焦点を当てる。
まず,逆撮影行動推定手法を提案する。
次に,新しい2Dビデオや3D仮想環境に様々な撮影タイプを転送できる映像転送パイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-29T15:56:58Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Video Autoencoder: self-supervised disentanglement of static 3D
structure and motion [60.58836145375273]
ビデオから3次元構造とカメラポーズの遠心分離表現を学習するために,ビデオオートエンコーダを提案する。
この表現は、新しいビュー合成、カメラポーズ推定、動きの追従によるビデオ生成など、様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2021-10-06T17:57:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。