論文の概要: VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.00845v1
- Date: Fri, 1 Dec 2023 06:50:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:41:44.476414
- Title: VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models
- Title(参考訳): VMC:テキスト・ビデオ拡散モデルにおける時間的注意適応を用いた動画モーションのカスタマイズ
- Authors: Hyeonho Jeong, Geon Yeong Park, Jong Chul Ye
- Abstract要約: Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
- 参考スコア(独自算出の注目度): 58.93124686141781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-video diffusion models have advanced video generation significantly.
However, customizing these models to generate videos with tailored motions
presents a substantial challenge. In specific, they encounter hurdles in (a)
accurately reproducing motion from a target video, and (b) creating diverse
visual variations. For example, straightforward extensions of static image
customization methods to video often lead to intricate entanglements of
appearance and motion data. To tackle this, here we present the Video Motion
Customization (VMC) framework, a novel one-shot tuning approach crafted to
adapt temporal attention layers within video diffusion models. Our approach
introduces a novel motion distillation objective using residual vectors between
consecutive frames as a motion reference. The diffusion process then preserves
low-frequency motion trajectories while mitigating high-frequency
motion-unrelated noise in image space. We validate our method against
state-of-the-art video generative models across diverse real-world motions and
contexts. Our codes, data and the project demo can be found at
https://video-motion-customization.github.io
- Abstract(参考訳): テキスト・ビデオ拡散モデルでは、ビデオ生成が大幅に進歩している。
しかし、これらのモデルをカスタマイズして動きを調整したビデオを生成することは、大きな課題となる。
特にハードルに遭遇します
(a)ターゲット映像からの動きを正確に再現し、
(b)多様な視覚変化を生み出すこと。
例えば、ビデオに対する静的な画像のカスタマイズ方法の素直な拡張は、しばしば外観とモーションデータの複雑な絡み合いにつながる。
これを解決するために,ビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法であるビデオモーションカスタマイズ(VMC)フレームワークを提案する。
提案手法では,連続フレーム間の残留ベクトルを運動基準として,新しい運動蒸留目的を導入する。
拡散過程は、画像空間における高周波運動非関連ノイズを緩和しながら、低周波運動軌跡を保存する。
本手法は,実世界の様々な動きや文脈にまたがって,最先端のビデオ生成モデルに対して検証を行う。
私たちのコード、データ、プロジェクトのデモはhttps://video-motion-customization.github.ioで確認できます。
関連論文リスト
- Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [48.56724784226513]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案するモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、様々な下流タスクへの容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [97.03352319694795]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。