論文の概要: Direct-a-Video: Customized Video Generation with User-Directed Camera
Movement and Object Motion
- arxiv url: http://arxiv.org/abs/2402.03162v1
- Date: Mon, 5 Feb 2024 16:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:09:34.009786
- Title: Direct-a-Video: Customized Video Generation with User-Directed Camera
Movement and Object Motion
- Title(参考訳): Direct-a-Video: ユーザ指向カメラモーションとオブジェクトモーションによるカスタマイズビデオ生成
- Authors: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di
Zhang, Xiaodong Chen, Jing Liao
- Abstract要約: ユーザが1つまたは複数のオブジェクトやカメラの動きを独立して指定できるシステムであるDirect-a-Videoを紹介する。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
- 参考スコア(独自算出の注目度): 35.88614444887786
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent text-to-video diffusion models have achieved impressive progress. In
practice, users often desire the ability to control object motion and camera
movement independently for customized video creation. However, current methods
lack the focus on separately controlling object motion and camera movement in a
decoupled manner, which limits the controllability and flexibility of
text-to-video models. In this paper, we introduce Direct-a-Video, a system that
allows users to independently specify motions for one or multiple objects
and/or camera movements, as if directing a video. We propose a simple yet
effective strategy for the decoupled control of object motion and camera
movement. Object motion is controlled through spatial cross-attention
modulation using the model's inherent priors, requiring no additional
optimization. For camera movement, we introduce new temporal cross-attention
layers to interpret quantitative camera movement parameters. We further employ
an augmentation-based approach to train these layers in a self-supervised
manner on a small-scale dataset, eliminating the need for explicit motion
annotation. Both components operate independently, allowing individual or
combined control, and can generalize to open-domain scenarios. Extensive
experiments demonstrate the superiority and effectiveness of our method.
Project page: https://direct-a-video.github.io/.
- Abstract(参考訳): 最近のテキスト・ビデオ拡散モデルは素晴らしい進歩を遂げている。
実際にユーザは、カスタマイズされたビデオ作成のために、オブジェクトの動きとカメラの動きを独立して制御できることを望んでいます。
しかし、現在の手法では、オブジェクトの動きとカメラの動きを分離的に制御することに集中していないため、テキスト・ビデオモデルの可制御性と柔軟性が制限されている。
本稿では,1つまたは複数の物体やカメラの動きを,映像の指示のように独立して特定するシステムであるDirect-a-Videoを紹介する。
本稿では,物体の動きとカメラの動きの分離制御のための簡易かつ効果的な戦略を提案する。
オブジェクトの動きは、モデル固有の事前値を使用して空間的横断変調によって制御され、追加の最適化は不要である。
カメラの動きを定量的に解析するために,新しい時間的クロスアテンション層を導入する。
さらに,これらの層を自己教師ありで訓練するための拡張型アプローチも採用し,明示的な動作アノテーションを不要とした。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
大規模な実験により,本手法の優位性と有効性を示した。
プロジェクトページ: https://direct-a-video.github.io/
関連論文リスト
- MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent [58.09607975296408]
テキスト誘導画像-映像生成のための微粒なモーション制御を実現するMotionAgentを提案する。
キーとなる技術は、テキストプロンプトの動作情報を明示的な運動場に変換するモーション・フィールド・エージェントである。
我々はVBenchのサブセットを構築し、テキストと生成されたビデオの動作情報のアライメントを評価する。
論文 参考訳(メタデータ) (2025-02-05T14:26:07Z) - Free-Form Motion Control: A Synthetic Video Generation Dataset with Controllable Camera and Object Motions [78.65431951506152]
自由形運動制御のための合成データセット(SynFMC)を提案する。
提案したSynFMCデータセットは、さまざまなオブジェクトと環境を含み、特定のルールに従ってさまざまな動きパターンをカバーしている。
さらに,物体とカメラの動きの独立的あるいは同時制御を可能にするFMC(Free-Form Motion Control)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:59:45Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MotionBooth: Motion-Aware Customized Text-to-Video Generation [44.41894050494623]
MotionBoothは、オブジェクトとカメラの両方の動きを正確に制御して、カスタマイズされた被験者をアニメーションするためのフレームワークである。
オブジェクトの形状や属性を正確に把握するために,テキスト・ビデオ・モデルを効率的に微調整する。
提案手法は,被験者の学習能力を高めるために,被写体領域の損失とビデオ保存損失を示す。
論文 参考訳(メタデータ) (2024-06-25T17:42:25Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - MotionMaster: Training-free Camera Motion Transfer For Video Generation [48.706578330771386]
本稿では,映像中のカメラの動きと物体の動きをアンハングリングする,トレーニング不要な動画移動モデルを提案する。
我々のモデルは、効果的にカメラオブジェクトの動きを分離し、分離されたカメラの動きを広範囲の制御可能なビデオ生成タスクに適用することができる。
論文 参考訳(メタデータ) (2024-04-24T10:28:54Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。