論文の概要: MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video
Generation
- arxiv url: http://arxiv.org/abs/2311.16635v1
- Date: Tue, 28 Nov 2023 09:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 19:11:30.211247
- Title: MotionZero:Exploiting Motion Priors for Zero-shot Text-to-Video
Generation
- Title(参考訳): MotionZero:ゼロショットテキスト・ビデオ・ジェネレーションの先行動作
- Authors: Sitong Su, Litao Guo, Lianli Gao, Hengtao Shen and Jingkuan Song
- Abstract要約: ゼロショットのテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。
本研究では,MotionZeroと命名されたプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。
我々の戦略は、異なるオブジェクトの動きを正しく制御し、ゼロショットビデオ編集を含む多目的アプリケーションをサポートする。
- 参考スコア(独自算出の注目度): 131.1446077627191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot Text-to-Video synthesis generates videos based on prompts without
any videos. Without motion information from videos, motion priors implied in
prompts are vital guidance. For example, the prompt "airplane landing on the
runway" indicates motion priors that the "airplane" moves downwards while the
"runway" stays static. Whereas the motion priors are not fully exploited in
previous approaches, thus leading to two nontrivial issues: 1) the motion
variation pattern remains unaltered and prompt-agnostic for disregarding motion
priors; 2) the motion control of different objects is inaccurate and entangled
without considering the independent motion priors of different objects. To
tackle the two issues, we propose a prompt-adaptive and disentangled motion
control strategy coined as MotionZero, which derives motion priors from prompts
of different objects by Large-Language-Models and accordingly applies motion
control of different objects to corresponding regions in disentanglement.
Furthermore, to facilitate videos with varying degrees of motion amplitude, we
propose a Motion-Aware Attention scheme which adjusts attention among frames by
motion amplitude. Extensive experiments demonstrate that our strategy could
correctly control motion of different objects and support versatile
applications including zero-shot video edit.
- Abstract(参考訳): ゼロショットテキスト・トゥ・ビデオ合成は、ビデオなしでプロンプトに基づいてビデオを生成する。
動画からの動き情報がないと、プロンプトに暗示される動き優先が重要なガイダンスとなる。
例えば、プロンプト "airplane landing on the runway" は、"airplane" が下方へ動く前に、"runway" が静止していることを示す。
動きの優先順位は以前のアプローチで完全には悪用されていないため、2つの非自明な問題に繋がる。
1) 動きの変動パターンは,動きの先行性を無視したまま,かつ,即時無依存である。
2) 異なる物体の運動制御は、異なる物体の独立運動先行を考慮せずに不正確かつ絡み合っている。
この2つの課題に対処するために,大言語モデルによる異なる物体のプロンプトから動き先行を導出するMotionZeroと呼ばれるプロンプト適応型・アンタングル型モーションコントロール戦略を提案する。
さらに,動き振幅の度合いの異なる動画を容易にするために,動き振幅によるフレーム間の注意調整を行う動き認識方式を提案する。
広範な実験により,提案手法が異なる物体の動きを正しく制御し,ゼロショット映像編集を含む多用途アプリケーションをサポートすることを実証した。
関連論文リスト
- Follow-Your-Click: Open-domain Regional Image Animation via Short
Prompts [67.5094490054134]
簡単なユーザクリックで画像アニメーションを実現するために,Follow-Your-Clickという実用的なフレームワークを提案する。
我々のフレームワークは、従来の方法よりもシンプルで正確なユーザ制御と、より優れた生成性能を備えています。
論文 参考訳(メタデータ) (2024-03-13T05:44:37Z) - Direct-a-Video: Customized Video Generation with User-Directed Camera
Movement and Object Motion [35.88614444887786]
ユーザが1つまたは複数のオブジェクトやカメラの動きを独立して指定できるシステムであるDirect-a-Videoを紹介する。
カメラの動きの定量的なパラメータを解釈するために,新しい時間的クロスアテンション層を導入する。
どちらのコンポーネントも独立して動作し、個別または複合的な制御を可能にし、オープンドメインシナリオに一般化することができる。
論文 参考訳(メタデータ) (2024-02-05T16:30:57Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - MotionCtrl: A Unified and Flexible Motion Controller for Video
Generation [77.09621778348733]
ビデオ中の動きは、主にカメラの動きによって誘導されるカメラの動きと、物体の動きによって生じる物体の動きから成り立っている。
本稿では,カメラと物体の動きを効果的かつ独立に制御するビデオ生成用統合モーションコントローラであるMotionCtrlを提案する。
論文 参考訳(メタデータ) (2023-12-06T17:49:57Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Space-Time Diffusion Features for Zero-Shot Text-Driven Motion Transfer [27.278989809466392]
本稿では,対象オブジェクトとシーンを記述する入力テキストプロンプトに準拠する動画を合成する,テキスト駆動型モーショントランスファーの新しい手法を提案する。
我々は、事前に訓練された、固定されたテキスト-ビデオ拡散モデルを活用し、生成および動きの先行情報を提供する。
論文 参考訳(メタデータ) (2023-11-28T18:03:27Z) - Traffic Video Object Detection using Motion Prior [16.63738085066699]
本稿では,先行動作を利用した2つの革新的な手法を提案し,トラヒックビデオオブジェクト検出の性能を向上する。
まず、時間情報統合を導く前に動きを利用する新しい自己認識モジュールを導入する。
次に、擬似ラベリング機構を用いて、半教師付き設定のためのノイズの多い擬似ラベルを除去する。
論文 参考訳(メタデータ) (2023-11-16T18:59:46Z) - AMP: Adversarial Motion Priors for Stylized Physics-Based Character
Control [145.61135774698002]
我々は,与えられたシナリオで追跡するキャラクタの動作を選択するための完全自動化手法を提案する。
キャラクタが実行するべきハイレベルなタスク目標は、比較的単純な報酬関数によって指定できる。
キャラクタの動作の低レベルスタイルは、非構造化モーションクリップのデータセットによって指定できる。
本システムでは,最先端のトラッキング技術に匹敵する高品質な動作を生成する。
論文 参考訳(メタデータ) (2021-04-05T22:43:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。