論文の概要: CameraCtrl: Enabling Camera Control for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2404.02101v1
- Date: Tue, 2 Apr 2024 16:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 15:30:03.156199
- Title: CameraCtrl: Enabling Camera Control for Text-to-Video Generation
- Title(参考訳): CameraCtrl:テキスト・ビデオ・ジェネレーションのためのカメラ制御
- Authors: Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang,
- Abstract要約: ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。
既存のモデルは、撮影言語として機能するカメラポーズの正確な制御をほとんど見落としていた。
我々は、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にするCameraCtrlを紹介する。
- 参考スコア(独自算出の注目度): 86.36135895375425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllability plays a crucial role in video generation since it allows users to create desired content. However, existing models largely overlooked the precise control of camera pose that serves as a cinematic language to express deeper narrative nuances. To alleviate this issue, we introduce CameraCtrl, enabling accurate camera pose control for text-to-video(T2V) models. After precisely parameterizing the camera trajectory, a plug-and-play camera module is then trained on a T2V model, leaving others untouched. Additionally, a comprehensive study on the effect of various datasets is also conducted, suggesting that videos with diverse camera distribution and similar appearances indeed enhance controllability and generalization. Experimental results demonstrate the effectiveness of CameraCtrl in achieving precise and domain-adaptive camera control, marking a step forward in the pursuit of dynamic and customized video storytelling from textual and camera pose inputs. Our project website is at: https://hehao13.github.io/projects-CameraCtrl/.
- Abstract(参考訳): ユーザーが希望するコンテンツを作成することができるため、ビデオ生成において制御性は重要な役割を担っている。
しかし、既存のモデルは、より深い物語のニュアンスを表現するための映画言語として機能するカメラポーズの正確な制御をほとんど見落としていた。
この問題を軽減するために、私たちはCameraCtrlを導入し、テキスト・トゥ・ビデオ(T2V)モデルの正確なカメラポーズ制御を可能にした。
カメラの軌道を正確にパラメータ化した後、プラグアンドプレイのカメラモジュールがT2Vモデルで訓練され、他のモジュールは触れられなくなる。
さらに、様々なデータセットの効果に関する包括的な研究も行われ、多様なカメラ分布と類似の外観を持つビデオは、制御可能性と一般化を実際に促進していることを示唆している。
実験結果から、テキストとカメラのポーズ入力から動的でカスタマイズされたビデオストーリーテリングを追求し、精密かつドメイン適応的なカメラ制御を実現する上で、CameraCtrlの有効性が示された。
プロジェクトのWebサイトは以下の通り。
関連論文リスト
- MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - Investigating the Effectiveness of Cross-Attention to Unlock Zero-Shot Editing of Text-to-Video Diffusion Models [52.28245595257831]
クロスアテンションガイダンスは、ビデオを編集する上で有望なアプローチだ。
現行のT2Vモデルの限界にもかかわらず、動画編集にはクロスアテンションガイダンスが有望なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-04-08T13:40:01Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera Movement and Object Motion [34.404342332033636]
我々は、カメラのパンやズームの動きだけでなく、複数のオブジェクトのモーションを独立して指定できるシステムであるDirect-a-Videoを紹介した。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video
Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z) - Batteries, camera, action! Learning a semantic control space for
expressive robot cinematography [15.895161373307378]
我々は,意味空間における複雑なカメラ位置決めパラメータの編集を可能にする,データ駆動型フレームワークを開発した。
まず,写真実写シミュレータにおいて,多様な撮影範囲を持つ映像クリップのデータベースを作成する。
クラウドソーシングフレームワークには何百人もの参加者が参加して,各クリップのセマンティック記述子セットのスコアを取得しています。
論文 参考訳(メタデータ) (2020-11-19T21:56:53Z) - Pose-Assisted Multi-Camera Collaboration for Active Object Tracking [42.57706021569103]
アクティブオブジェクト追跡(AOT)は、モバイルロボット、インテリジェント監視など、多くのビジョンベースのアプリケーションに不可欠である。
本稿では,単一カメラのAOTをマルチカメラ環境に拡張し,カメラが目標を協調的に追跡する手法を提案する。
本稿では,カメラが物体追跡のためのカメラのポーズを共有することによって,他者との協調を可能にする,Pose-Assisted Multi-Camera Collaboration Systemを提案する。
論文 参考訳(メタデータ) (2020-01-15T07:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。