論文の概要: LMP: Leveraging Motion Prior in Zero-Shot Video Generation with Diffusion Transformer
- arxiv url: http://arxiv.org/abs/2505.14167v1
- Date: Tue, 20 May 2025 10:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.059561
- Title: LMP: Leveraging Motion Prior in Zero-Shot Video Generation with Diffusion Transformer
- Title(参考訳): LMP:拡散変換器を用いたゼロショットビデオ生成に先立つレバレッジ動作
- Authors: Changgu Chen, Xiaoyan Yang, Junwei Shu, Changbo Wang, Yang Li,
- Abstract要約: ゼロショットビデオ生成のためのLMPフレームワークを提案する。
本フレームワークでは,事前学習した拡散トランスフォーマーの強力な生成機能を活用し,生成した動画の動画をユーザが提供するモーションビデオを参照できるようにする。
提案手法は, 生成品質, 即時ビデオの整合性, 制御能力における最先端性能を実現する。
- 参考スコア(独自算出の注目度): 10.44905923812975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, large-scale pre-trained diffusion transformer models have made significant progress in video generation. While current DiT models can produce high-definition, high-frame-rate, and highly diverse videos, there is a lack of fine-grained control over the video content. Controlling the motion of subjects in videos using only prompts is challenging, especially when it comes to describing complex movements. Further, existing methods fail to control the motion in image-to-video generation, as the subject in the reference image often differs from the subject in the reference video in terms of initial position, size, and shape. To address this, we propose the Leveraging Motion Prior (LMP) framework for zero-shot video generation. Our framework harnesses the powerful generative capabilities of pre-trained diffusion transformers to enable motion in the generated videos to reference user-provided motion videos in both text-to-video and image-to-video generation. To this end, we first introduce a foreground-background disentangle module to distinguish between moving subjects and backgrounds in the reference video, preventing interference in the target video generation. A reweighted motion transfer module is designed to allow the target video to reference the motion from the reference video. To avoid interference from the subject in the reference video, we propose an appearance separation module to suppress the appearance of the reference subject in the target video. We annotate the DAVIS dataset with detailed prompts for our experiments and design evaluation metrics to validate the effectiveness of our method. Extensive experiments demonstrate that our approach achieves state-of-the-art performance in generation quality, prompt-video consistency, and control capability. Our homepage is available at https://vpx-ecnu.github.io/LMP-Website/
- Abstract(参考訳): 近年,大規模な事前学習型拡散変圧器モデルがビデオ生成において大きな進歩を遂げている。
現在のDiTモデルは高精細度、高フレームレート、高度に多様なビデオを生成することができるが、ビデオコンテンツに対するきめ細かい制御が欠如している。
プロンプトのみを用いて映像中の被験者の動きを制御することは、特に複雑な動きを記述する場合、困難である。
さらに、参照画像の被写体は、初期位置、サイズ、形状の点で、参照ビデオの被写体としばしば異なるため、既存の方法では、画像から映像への移動を制御できない。
これを解決するために,ゼロショットビデオ生成のためのLMPフレームワークを提案する。
本フレームワークでは,事前学習した拡散トランスフォーマーの強力な生成機能を活用し,テキスト・ツー・ビデオ・ビデオ・ジェネレーションとイメージ・ツー・ビデオ・ジェネレーションの両方において,ユーザが提供する動画の参照を可能にする。
そこで本研究では,まず,対象映像の移動対象と背景を区別し,対象映像の干渉を防止するために,前景のアンタングルモジュールを導入する。
再重み付けされたモーション転送モジュールは、対象映像が基準映像からのモーションを参照できるように設計されている。
基準映像における被写体からの干渉を避けるため,対象映像における参照被写体の出現を抑制するための外見分離モジュールを提案する。
提案手法の有効性を検証するため,DAVISデータセットに実験と設計評価指標の詳細なプロンプトを付加した。
広汎な実験により,本手法は生成品質,即時映像の整合性,制御能力において最先端の性能を達成できることが実証された。
私たちのホームページはhttps://vpx-ecnu.github.io/LMP-Website/で公開されています。
関連論文リスト
- MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model [78.11258752076046]
MOFA-Videoは、様々な制御可能な信号を用いて、所定の画像から映像を生成する高度な制御可能な画像アニメーション手法である。
ビデオ生成パイプラインの動作を制御するために,複数のドメイン対応モーションフィールドアダプタを設計する。
トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできる。
論文 参考訳(メタデータ) (2024-05-30T16:22:22Z) - Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation [10.5019872575418]
本研究では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案する。
本手法は、トレーニングプロセスなしで、様々な最先端ビデオ拡散モデルに柔軟に適用できる。
論文 参考訳(メタデータ) (2024-01-18T17:22:37Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。