論文の概要: MotionDirector: Motion Customization of Text-to-Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2310.08465v1
- Date: Thu, 12 Oct 2023 16:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:43:14.039835
- Title: MotionDirector: Motion Customization of Text-to-Video Diffusion Models
- Title(参考訳): MotionDirector:テキスト・ビデオ拡散モデルのモーションカスタマイズ
- Authors: Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu,
Weijia Wu, Jussi Keppo, Mike Zheng Shou
- Abstract要約: Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
- 参考スコア(独自算出の注目度): 24.282240656366714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained diffusion models have exhibited remarkable
capabilities in diverse video generations. Given a set of video clips of the
same motion concept, the task of Motion Customization is to adapt existing
text-to-video diffusion models to generate videos with this motion. For
example, generating a video with a car moving in a prescribed manner under
specific camera movements to make a movie, or a video illustrating how a bear
would lift weights to inspire creators. Adaptation methods have been developed
for customizing appearance like subject or style, yet unexplored for motion. It
is straightforward to extend mainstream adaption methods for motion
customization, including full model tuning, parameter-efficient tuning of
additional layers, and Low-Rank Adaptions (LoRAs). However, the motion concept
learned by these methods is often coupled with the limited appearances in the
training videos, making it difficult to generalize the customized motion to
other appearances. To overcome this challenge, we propose MotionDirector, with
a dual-path LoRAs architecture to decouple the learning of appearance and
motion. Further, we design a novel appearance-debiased temporal loss to
mitigate the influence of appearance on the temporal training objective.
Experimental results show the proposed method can generate videos of diverse
appearances for the customized motions. Our method also supports various
downstream applications, such as the mixing of different videos with their
appearance and motion respectively, and animating a single image with
customized motions. Our code and model weights will be released.
- Abstract(参考訳): 大規模な事前学習拡散モデルでは、様々なビデオ世代で顕著な能力を発揮している。
同じモーションコンセプトのビデオクリップのセットが与えられた場合、モーションカスタマイズのタスクは、既存のテキスト間拡散モデルを適用して、このモーションでビデオを生成することである。
例えば、特定のカメラの動きの下で車が所定の動きで動画を生成して映画を作る場合や、クマが重りを持ち上げてクリエイターを刺激する様子を映すようなビデオなどだ。
主題やスタイルのような外観をカスタマイズする手法が開発されているが、動作については未検討である。
フルモデルチューニング、追加レイヤのパラメータ効率チューニング、Low-Rank Adaptions (LoRA)など、モーションカスタマイズのメインストリーム適応手法を拡張することは容易である。
しかし、これらの方法によって学習されたモーションコンセプトは、トレーニングビデオの限られた外観としばしば結合されるため、カスタマイズされたモーションを他の外観に一般化することは困難である。
この課題を克服するために,デュアルパスLoRAsアーキテクチャを用いたMotionDirectorを提案し,外見と動きの学習を分離する。
さらに,外見が時間的訓練目標に与える影響を軽減するために,新しい時間的損失を設計する。
実験結果から,提案手法は多様な動きを再現した映像を生成できることがわかった。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
コードとモデルの重み付けがリリースされます。
関連論文リスト
- ViMo: Generating Motions from Casual Videos [34.19904765033005]
ビデオから動画へ生成する新しいフレームワーク(ViMo)を提案する。
ViMoは、未完成のビデオコンテンツの膨大な量を生かして、多種多様な3Dモーションを作り出すことができる。
実験結果から、高速な動き、様々な視点、あるいは頻繁なオクルージョンが存在するビデオであっても、提案モデルが自然な動きを生成できることを示した。
論文 参考訳(メタデータ) (2024-08-13T03:57:35Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [48.56724784226513]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案するモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、様々な下流タスクへの容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - DreamVideo: Composing Your Dream Videos with Customized Subject and
Motion [52.7394517692186]
対象の静的画像からパーソナライズされたビデオを生成する新しいアプローチであるDreamVideoを紹介します。
DreamVideoは、このタスクを、トレーニング済みのビデオ拡散モデルを活用することによって、主観学習とモーション学習の2つの段階に分離する。
モーション学習では、対象のモーションパターンを効果的にモデル化するために、モーションアダプタを設計し、所定のビデオに微調整する。
論文 参考訳(メタデータ) (2023-12-07T16:57:26Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models
without Specific Tuning [92.33690050667475]
AnimateDiffは、モデル固有のチューニングを必要とせずに、パーソナライズされたT2Iモデルをアニメーションするためのフレームワークである。
我々は,AnimateDiffの軽量微調整技術であるMotionLoRAを提案する。
その結果,これらのモデルが視覚的品質と動きの多様性を保ちながら,時間的にスムーズなアニメーションクリップを生成するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2023-07-10T17:34:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。