論文の概要: Direct-a-Video: Customized Video Generation with User-Directed Camera
Movement and Object Motion
- arxiv url: http://arxiv.org/abs/2402.03162v1
- Date: Mon, 5 Feb 2024 16:30:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:09:34.009786
- Title: Direct-a-Video: Customized Video Generation with User-Directed Camera
Movement and Object Motion
- Title(参考訳): Direct-a-Video: ユーザ指向カメラモーションとオブジェクトモーションによるカスタマイズビデオ生成
- Authors: Shiyuan Yang, Liang Hou, Haibin Huang, Chongyang Ma, Pengfei Wan, Di
Zhang, Xiaodong Chen, Jing Liao
- Abstract要約: ユーザが1つまたは複数のオブジェクトやカメラの動きを独立して指定できるシステムであるDirect-a-Videoを紹介する。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
- 参考スコア(独自算出の注目度): 35.88614444887786
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent text-to-video diffusion models have achieved impressive progress. In
practice, users often desire the ability to control object motion and camera
movement independently for customized video creation. However, current methods
lack the focus on separately controlling object motion and camera movement in a
decoupled manner, which limits the controllability and flexibility of
text-to-video models. In this paper, we introduce Direct-a-Video, a system that
allows users to independently specify motions for one or multiple objects
and/or camera movements, as if directing a video. We propose a simple yet
effective strategy for the decoupled control of object motion and camera
movement. Object motion is controlled through spatial cross-attention
modulation using the model's inherent priors, requiring no additional
optimization. For camera movement, we introduce new temporal cross-attention
layers to interpret quantitative camera movement parameters. We further employ
an augmentation-based approach to train these layers in a self-supervised
manner on a small-scale dataset, eliminating the need for explicit motion
annotation. Both components operate independently, allowing individual or
combined control, and can generalize to open-domain scenarios. Extensive
experiments demonstrate the superiority and effectiveness of our method.
Project page: https://direct-a-video.github.io/.
- Abstract(参考訳): 最近のテキスト・ビデオ拡散モデルは素晴らしい進歩を遂げている。
実際にユーザは、カスタマイズされたビデオ作成のために、オブジェクトの動きとカメラの動きを独立して制御できることを望んでいます。
しかし、現在の手法では、オブジェクトの動きとカメラの動きを分離的に制御することに集中していないため、テキスト・ビデオモデルの可制御性と柔軟性が制限されている。
本稿では,1つまたは複数の物体やカメラの動きを,映像の指示のように独立して特定するシステムであるDirect-a-Videoを紹介する。
本稿では,物体の動きとカメラの動きの分離制御のための簡易かつ効果的な戦略を提案する。
オブジェクトの動きは、モデル固有の事前値を使用して空間的横断変調によって制御され、追加の最適化は不要である。
カメラの動きを定量的に解析するために,新しい時間的クロスアテンション層を導入する。
さらに,これらの層を自己教師ありで訓練するための拡張型アプローチも採用し,明示的な動作アノテーションを不要とした。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
大規模な実験により,本手法の優位性と有効性を示した。
プロジェクトページ: https://direct-a-video.github.io/
関連論文リスト
- Follow-Your-Click: Open-domain Regional Image Animation via Short
Prompts [67.5094490054134]
簡単なユーザクリックで画像アニメーションを実現するために,Follow-Your-Clickという実用的なフレームワークを提案する。
我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
論文 参考訳(メタデータ) (2024-03-13T05:44:37Z) - Motion-Zero: Zero-Shot Moving Object Control Framework for
Diffusion-Based Video Generation [10.951376101606357]
本研究では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案する。
本手法は、トレーニングプロセスなしで、様々な最先端ビデオ拡散モデルに柔軟に適用できる。
論文 参考訳(メタデータ) (2024-01-18T17:22:37Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video
Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z) - MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video
Generation [131.1446077627191]
ゼロショットのテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。
本研究では,MotionZeroと命名されたプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。
我々の戦略は、異なるオブジェクトの動きを正しく制御し、ゼロショットビデオ編集を含む多目的アプリケーションをサポートする。
論文 参考訳(メタデータ) (2023-11-28T09:38:45Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Learning Variational Motion Prior for Video-based Motion Capture [31.79649766268877]
ビデオに基づくモーションキャプチャーのための新しい変分動作先行学習手法(VMP)を提案する。
我々のフレームワークはフレームワイドポーズ推定における時間的ジッタリングと障害モードを効果的に削減できる。
公開データセットとインザワイルドビデオの両方を用いた実験により、我々のフレームワークの有効性と一般化能力が実証された。
論文 参考訳(メタデータ) (2022-10-27T02:45:48Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。