論文の概要: MotionCrafter: One-Shot Motion Customization of Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.05288v2
- Date: Tue, 2 Jan 2024 10:39:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 16:20:45.906193
- Title: MotionCrafter: One-Shot Motion Customization of Diffusion Models
- Title(参考訳): MotionCrafter: 拡散モデルのワンショットモーションカスタマイズ
- Authors: Yuxin Zhang, Fan Tang, Nisha Huang, Haibin Huang, Chongyang Ma,
Weiming Dong, Changsheng Xu
- Abstract要約: ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
- 参考スコア(独自算出の注目度): 66.44642854791807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The essence of a video lies in its dynamic motions, including character
actions, object movements, and camera movements. While text-to-video generative
diffusion models have recently advanced in creating diverse contents,
controlling specific motions through text prompts remains a significant
challenge. A primary issue is the coupling of appearance and motion, often
leading to overfitting on appearance. To tackle this challenge, we introduce
MotionCrafter, a novel one-shot instance-guided motion customization method.
MotionCrafter employs a parallel spatial-temporal architecture that injects the
reference motion into the temporal component of the base model, while the
spatial module is independently adjusted for character or style control. To
enhance the disentanglement of motion and appearance, we propose an innovative
dual-branch motion disentanglement approach, comprising a motion
disentanglement loss and an appearance prior enhancement strategy. During
training, a frozen base model provides appearance normalization, effectively
separating appearance from motion and thereby preserving diversity.
Comprehensive quantitative and qualitative experiments, along with user
preference tests, demonstrate that MotionCrafter can successfully integrate
dynamic motions while preserving the coherence and quality of the base model
with a wide range of appearance generation capabilities. Project page:
https://zyxelsa.github.io/homepage-motioncrafter. Codes are available at
https://github.com/zyxElsa/MotionCrafter.
- Abstract(参考訳): 動画の本質は、キャラクターの動き、オブジェクトの動き、カメラの動きなど、ダイナミックな動きにある。
近年,テキスト・ビデオ生成拡散モデルによる多様なコンテンツ作成が進んでいるが,テキスト・プロンプトによる特定の動作の制御は重要な課題である。
主な問題は外観と動きの結合であり、しばしば外観に過度に適合する。
この課題に対処するために、新しいワンショットインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用しているが、空間モジュールは文字やスタイル制御のために独立して調整されている。
動きと外観の絡み合いを高めるために, 動きの絡み合い損失と出現前強調戦略からなる, 革新的な二重分岐運動乱れアプローチを提案する。
トレーニング中、凍結ベースモデルは外観正規化を提供し、効果的に外観と動きを分離し、ダイバーシティを維持する。
総合的な量的および質的な実験とユーザ好みのテストにより、MotionCrafterは、幅広い外観生成機能を備えたベースモデルの一貫性と品質を維持しながら、動的モーションをうまく統合できることを示した。
プロジェクトページ: https://zyxelsa.github.io/homepage-motioncrafter。
コードはhttps://github.com/zyxElsa/MotionCrafter.comで入手できる。
関連論文リスト
- Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。
テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文 参考訳(メタデータ) (2024-08-08T17:59:38Z) - Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。
動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。
我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文 参考訳(メタデータ) (2024-06-10T17:47:14Z) - MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。
優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。
最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文 参考訳(メタデータ) (2024-05-30T17:57:30Z) - CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。
CoMoは、動きを離散的で意味のあるポーズコードに分解する。
自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文 参考訳(メタデータ) (2024-03-20T18:11:10Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。
我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。
また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文 参考訳(メタデータ) (2023-10-12T16:26:18Z) - We never go out of Style: Motion Disentanglement by Subspace
Decomposition of Latent Space [38.54517335215281]
本稿では,事前学習画像GANモデルを用いて映像中の動きを分解する新しい手法を提案する。
広範に使われているスタイルベースGANモデルの潜在空間において、非交叉運動部分空間が発見される。
顔と車のデータセット上での運動部分空間の絡み合い特性を評価する。
論文 参考訳(メタデータ) (2023-06-01T11:18:57Z) - MoStGAN-V: Video Generation with Temporal Motion Styles [28.082294960744726]
以前の作品は、自己回帰的な方法で、あるいは連続的な信号として時間に関して、任意の長さのビデオを生成しようと試みていた。
スタイルベースジェネレータの1つの時間に依存しない潜在ベクトルは、様々な時間的変動をモデル化するには不十分である。
多様な動きパターンをモデル化するために、時間依存の動作スタイルを導入する。
論文 参考訳(メタデータ) (2023-04-05T22:47:12Z) - MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。
複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。
体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文 参考訳(メタデータ) (2022-08-31T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。