論文の概要: MotionCrafter: One-Shot Motion Customization of Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.05288v2
- Date: Tue, 2 Jan 2024 10:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:20:45.906193
- Title: MotionCrafter: One-Shot Motion Customization of Diffusion Models
- Title(参考訳): MotionCrafter: 拡散モデルのワンショットモーションカスタマイズ
- Authors: Yuxin Zhang, Fan Tang, Nisha Huang, Haibin Huang, Chongyang Ma,
Weiming Dong, Changsheng Xu
- Abstract要約: ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
- 参考スコア(独自算出の注目度): 66.44642854791807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The essence of a video lies in its dynamic motions, including character
actions, object movements, and camera movements. While text-to-video generative
diffusion models have recently advanced in creating diverse contents,
controlling specific motions through text prompts remains a significant
challenge. A primary issue is the coupling of appearance and motion, often
leading to overfitting on appearance. To tackle this challenge, we introduce
MotionCrafter, a novel one-shot instance-guided motion customization method.
MotionCrafter employs a parallel spatial-temporal architecture that injects the
reference motion into the temporal component of the base model, while the
spatial module is independently adjusted for character or style control. To
enhance the disentanglement of motion and appearance, we propose an innovative
dual-branch motion disentanglement approach, comprising a motion
disentanglement loss and an appearance prior enhancement strategy. During
training, a frozen base model provides appearance normalization, effectively
separating appearance from motion and thereby preserving diversity.
Comprehensive quantitative and qualitative experiments, along with user
preference tests, demonstrate that MotionCrafter can successfully integrate
dynamic motions while preserving the coherence and quality of the base model
with a wide range of appearance generation capabilities. Project page:
https://zyxelsa.github.io/homepage-motioncrafter. Codes are available at
https://github.com/zyxElsa/MotionCrafter.
- Abstract(参考訳): 動画の本質は、キャラクターの動き、オブジェクトの動き、カメラの動きなど、ダイナミックな動きにある。
近年,テキスト・ビデオ生成拡散モデルによる多様なコンテンツ作成が進んでいるが,テキスト・プロンプトによる特定の動作の制御は重要な課題である。
主な問題は外観と動きの結合であり、しばしば外観に過度に適合する。
この課題に対処するために、新しいワンショットインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用しているが、空間モジュールは文字やスタイル制御のために独立して調整されている。
動きと外観の絡み合いを高めるために, 動きの絡み合い損失と出現前強調戦略からなる, 革新的な二重分岐運動乱れアプローチを提案する。
トレーニング中、凍結ベースモデルは外観正規化を提供し、効果的に外観と動きを分離し、ダイバーシティを維持する。
総合的な量的および質的な実験とユーザ好みのテストにより、MotionCrafterは、幅広い外観生成機能を備えたベースモデルの一貫性と品質を維持しながら、動的モーションをうまく統合できることを示した。
プロジェクトページ: https://zyxelsa.github.io/homepage-motioncrafter。
コードはhttps://github.com/zyxElsa/MotionCrafter.comで入手できる。
関連論文リスト
- Customize-A-Video: One-Shot Motion Customization of Text-to-Video
Diffusion Models [50.65904921917907]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案手法は、カスタムビデオ生成や編集、映像の外観のカスタマイズ、複数動作の組み合わせなど、様々な下流タスクに容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - TapMo: Shape-aware Motion Generation of Skeleton-free Characters [64.83230289993145]
骨格のない3Dキャラクタの広帯域における動作のためのテキスト駆動アニメーションパイプラインであるTapMoを提案する。
TapMoはMesh Handle PredictorとShape-aware Diffusion Moduleの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2023-10-19T12:14:32Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - We never go out of Style: Motion Disentanglement by Subspace
Decomposition of Latent Space [38.54517335215281]
本稿では,事前学習画像GANモデルを用いて映像中の動きを分解する新しい手法を提案する。
広範に使われているスタイルベースGANモデルの潜在空間において、非交叉運動部分空間が発見される。
顔と車のデータセット上での運動部分空間の絡み合い特性を評価する。
論文 参考訳(メタデータ) (2023-06-01T11:18:57Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - MoStGAN-V: Video Generation with Temporal Motion Styles [28.082294960744726]
以前の作品は、自己回帰的な方法で、あるいは連続的な信号として時間に関して、任意の長さのビデオを生成しようと試みていた。
スタイルベースジェネレータの1つの時間に依存しない潜在ベクトルは、様々な時間的変動をモデル化するには不十分である。
多様な動きパターンをモデル化するために、時間依存の動作スタイルを導入する。
論文 参考訳(メタデータ) (2023-04-05T22:47:12Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。