論文の概要: CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities
- arxiv url: http://arxiv.org/abs/2408.13239v2
- Date: Fri, 27 Dec 2024 13:58:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:20.779473
- Title: CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities
- Title(参考訳): CustomCrafter: モーションとコンセプト構成能力を保存するカスタムビデオ生成
- Authors: Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li,
- Abstract要約: CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。
動作生成では,VDMが早期に映像の動きを回復する傾向が見られた。
復調の後期では、特定対象の外観詳細を修復するために、このモジュールを復元する。
- 参考スコア(独自算出の注目度): 56.5742116979914
- License:
- Abstract: Customized video generation aims to generate high-quality videos guided by text prompts and subject's reference images. However, since it is only trained on static images, the fine-tuning process of subject learning disrupts abilities of video diffusion models (VDMs) to combine concepts and generate motions. To restore these abilities, some methods use additional video similar to the prompt to fine-tune or guide the model. This requires frequent changes of guiding videos and even re-tuning of the model when generating different motions, which is very inconvenient for users. In this paper, we propose CustomCrafter, a novel framework that preserves the model's motion generation and conceptual combination abilities without additional video and fine-tuning to recovery. For preserving conceptual combination ability, we design a plug-and-play module to update few parameters in VDMs, enhancing the model's ability to capture the appearance details and the ability of concept combinations for new subjects. For motion generation, we observed that VDMs tend to restore the motion of video in the early stage of denoising, while focusing on the recovery of subject details in the later stage. Therefore, we propose Dynamic Weighted Video Sampling Strategy. Using the pluggability of our subject learning modules, we reduce the impact of this module on motion generation in the early stage of denoising, preserving the ability to generate motion of VDMs. In the later stage of denoising, we restore this module to repair the appearance details of the specified subject, thereby ensuring the fidelity of the subject's appearance. Experimental results show that our method has a significant improvement compared to previous methods. Code is available at https://github.com/WuTao-CS/CustomCrafter
- Abstract(参考訳): カスタマイズされたビデオ生成は、テキストプロンプトと被験者の参照画像によってガイドされる高品質なビデオを生成することを目的としている。
しかし,静的画像にのみ訓練されているため,映像拡散モデル(VDM)の能力は微調整処理によって阻害され,概念が組み合わさって動きが生成される。
これらの能力を回復するために、いくつかの方法は、モデルを微調整したりガイドしたりするプロンプトに似た追加のビデオを使用する。
これは、ユーザーにとって非常に不都合な、異なるモーションを生成する際に、ガイドビデオの頻繁な変更や、モデルの再チューニングさえ必要である。
本稿では,モデルの動き生成と概念的組み合わせを,追加のビデオや微調整を伴わずに保存する新しいフレームワークであるCustomCrafterを提案する。
概念的組み合わせの能力を維持するため,VDMのパラメータを少数更新するプラグイン・アンド・プレイ・モジュールを設計し,モデルが外観の詳細を把握し,新しい被験者に対する概念組合せの能力を向上する。
動作生成においては,VDMは早期に映像の動きを回復する傾向にあり,後期では被写体の詳細の回復に焦点をあてる傾向が見られた。
そこで我々は,動的重み付きビデオサンプリング戦略を提案する。
対象学習モジュールのプラグビリティを用いて,VDMの動作を発生させる能力を保ちながら,初期段階の動作生成に対するこのモジュールの影響を低減した。
復調の後期では、このモジュールを復元して、特定対象の外観詳細を修復し、被験者の外観の忠実さを確実にする。
実験結果から,本手法は従来手法に比べて大幅に改善されていることがわかった。
コードはhttps://github.com/WuTao-CS/CustomCrafterで入手できる。
関連論文リスト
- VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models [18.41701130228042]
動きのカスタマイズは、拡散モデル(DM)に適応して、同じ動きの概念の一連のビデオクリップによって指定された動きを持つビデオを生成することを目的としている。
本稿では,TAP (temporal attention purification) とAH ( appearance highway) の2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T05:40:20Z) - MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。
再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。
本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文 参考訳(メタデータ) (2024-12-02T10:07:59Z) - Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing [46.56615725175025]
本稿では,ワンショット微調整による未確認課題に対処するビデオモーション編集手法であるEdit-Your-Motionを紹介する。
映像の動作と外観を効果的に分離するために,時間的二段階学習戦略を設計する。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中の人間の動きを編集でき、より魅力的で多様なコンテンツを作ることができる。
論文 参考訳(メタデータ) (2024-05-07T17:06:59Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [48.56724784226513]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案するモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、様々な下流タスクへの容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。