Fugu-MT 論文翻訳(概要): MotionCrafter: One-Shot Motion Customization of Diffusion Models

論文の概要: MotionCrafter: One-Shot Motion Customization of Diffusion Models

arxiv url: http://arxiv.org/abs/2312.05288v2
Date: Tue, 2 Jan 2024 10:39:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-04 16:20:45.906193
Title: MotionCrafter: One-Shot Motion Customization of Diffusion Models
Title（参考訳）: MotionCrafter: 拡散モデルのワンショットモーションカスタマイズ
Authors: Yuxin Zhang, Fan Tang, Nisha Huang, Haibin Huang, Chongyang Ma, Weiming Dong, Changsheng Xu
Abstract要約: ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
参考スコア（独自算出の注目度）: 66.44642854791807
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The essence of a video lies in its dynamic motions, including character actions, object movements, and camera movements. While text-to-video generative diffusion models have recently advanced in creating diverse contents, controlling specific motions through text prompts remains a significant challenge. A primary issue is the coupling of appearance and motion, often leading to overfitting on appearance. To tackle this challenge, we introduce MotionCrafter, a novel one-shot instance-guided motion customization method. MotionCrafter employs a parallel spatial-temporal architecture that injects the reference motion into the temporal component of the base model, while the spatial module is independently adjusted for character or style control. To enhance the disentanglement of motion and appearance, we propose an innovative dual-branch motion disentanglement approach, comprising a motion disentanglement loss and an appearance prior enhancement strategy. During training, a frozen base model provides appearance normalization, effectively separating appearance from motion and thereby preserving diversity. Comprehensive quantitative and qualitative experiments, along with user preference tests, demonstrate that MotionCrafter can successfully integrate dynamic motions while preserving the coherence and quality of the base model with a wide range of appearance generation capabilities. Project page: https://zyxelsa.github.io/homepage-motioncrafter. Codes are available at https://github.com/zyxElsa/MotionCrafter.
Abstract（参考訳）: 動画の本質は、キャラクターの動き、オブジェクトの動き、カメラの動きなど、ダイナミックな動きにある。近年,テキスト・ビデオ生成拡散モデルによる多様なコンテンツ作成が進んでいるが,テキスト・プロンプトによる特定の動作の制御は重要な課題である。主な問題は外観と動きの結合であり、しばしば外観に過度に適合する。この課題に対処するために、新しいワンショットインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。 MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用しているが、空間モジュールは文字やスタイル制御のために独立して調整されている。動きと外観の絡み合いを高めるために, 動きの絡み合い損失と出現前強調戦略からなる, 革新的な二重分岐運動乱れアプローチを提案する。トレーニング中、凍結ベースモデルは外観正規化を提供し、効果的に外観と動きを分離し、ダイバーシティを維持する。総合的な量的および質的な実験とユーザ好みのテストにより、MotionCrafterは、幅広い外観生成機能を備えたベースモデルの一貫性と品質を維持しながら、動的モーションをうまく統合できることを示した。プロジェクトページ: https://zyxelsa.github.io/homepage-motioncrafter。コードはhttps://github.com/zyxElsa/MotionCrafter.comで入手できる。

関連論文リスト

Separate Motion from Appearance: Customizing Motion via Customizing Text-to-Video Diffusion Models [18.41701130228042]
動きのカスタマイズは、拡散モデル(DM)に適応して、同じ動きの概念の一連のビデオクリップによって指定された動きを持つビデオを生成することを目的としている。本稿では,TAP (temporal attention purification) とAH ( appearance highway) の2つの新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-28T05:40:20Z)
Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文参考訳（メタデータ） (2024-12-03T18:59:56Z)
MoTrans: Customized Motion Transfer with Text-driven Video Diffusion Models [59.10171699717122]
MoTransは、新しいコンテキストにおける類似した動きのビデオ生成を可能にする、カスタマイズされたモーション転送方式である。再カプセル化されたプロンプトとビデオフレームからのマルチモーダル表現は、外観のモデリングを促進する。本手法は, 特定の動きパターンを, 単一の参照ビデオや複数参照ビデオから効果的に学習する。
論文参考訳（メタデータ） (2024-12-02T10:07:59Z)
Puppet-Master: Scaling Interactive Video Generation as a Motion Prior for Part-Level Dynamics [67.97235923372035]
本稿では,対話型ビデオ生成モデルであるPuppet-Masterについて紹介する。テスト時には、ひとつのイメージと粗い動き軌跡が与えられた場合、Puppet-Masterは、与えられたドラッグ操作に忠実な現実的な部分レベルの動きを描写したビデオを合成することができる。
論文参考訳（メタデータ） (2024-08-08T17:59:38Z)
Monkey See, Monkey Do: Harnessing Self-attention in Motion Diffusion for Zero-shot Motion Transfer [55.109778609058154]
既存の拡散に基づく運動編集法は、事前訓練されたモデルの重みに埋め込まれた前者の深いポテンシャルを見落としている。動きパターンのキャプチャーと表現における注目要素の役割と相互作用を明らかにする。我々はこれらの要素を統合して、従者のニュアンス特性を維持しつつ、従者へのリーダ動作の転送を行い、結果としてゼロショット動作の転送を実現した。
論文参考訳（メタデータ） (2024-06-10T17:47:14Z)
MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion [94.66090422753126]
MotionFollowerは、ビデオモーション編集のための軽量なスコア誘導拡散モデルである。優れたモーション編集性能を提供し、大きなカメラの動きとアクションのみをサポートする。最新のモーション編集モデルであるMotionEditorと比較して、MotionFollowerはGPUメモリの約80%の削減を実現している。
論文参考訳（メタデータ） (2024-05-30T17:57:30Z)
CoMo: Controllable Motion Generation through Language Guided Pose Code Editing [57.882299081820626]
本稿では,制御可能なモーション生成モデルであるCoMoについて紹介する。 CoMoは、動きを離散的で意味のあるポーズコードに分解する。自動的にポーズコードのシーケンスを生成し、それを3Dモーションにデコードする。
論文参考訳（メタデータ） (2024-03-20T18:11:10Z)
VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-12-01T06:50:11Z)
MotionDirector: Motion Customization of Text-to-Video Diffusion Models [24.282240656366714]
Motion Customizationは、既存のテキストとビデオの拡散モデルを適用して、カスタマイズされたモーションでビデオを生成することを目的としている。我々は、外見と動きの学習を分離するために、デュアルパスのLoRAsアーキテクチャを持つMotionDirectorを提案する。また,異なる動画の外観と動きの混合や,カスタマイズされたモーションによる単一画像のアニメーションなど,さまざまなダウンストリームアプリケーションもサポートしている。
論文参考訳（メタデータ） (2023-10-12T16:26:18Z)
We never go out of Style: Motion Disentanglement by Subspace Decomposition of Latent Space [38.54517335215281]
本稿では,事前学習画像GANモデルを用いて映像中の動きを分解する新しい手法を提案する。広範に使われているスタイルベースGANモデルの潜在空間において、非交叉運動部分空間が発見される。顔と車のデータセット上での運動部分空間の絡み合い特性を評価する。
論文参考訳（メタデータ） (2023-06-01T11:18:57Z)
MoStGAN-V: Video Generation with Temporal Motion Styles [28.082294960744726]
以前の作品は、自己回帰的な方法で、あるいは連続的な信号として時間に関して、任意の長さのビデオを生成しようと試みていた。スタイルベースジェネレータの1つの時間に依存しない潜在ベクトルは、様々な時間的変動をモデル化するには不十分である。多様な動きパターンをモデル化するために、時間依存の動作スタイルを導入する。
論文参考訳（メタデータ） (2023-04-05T22:47:12Z)
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model [35.32967411186489]
MotionDiffuseは拡散モデルに基づくテキスト駆動モーション生成フレームワークである。複雑なデータ分散をモデル化し、鮮やかなモーションシーケンスを生成するのに優れています。体の部分のきめ細かい指示に反応し、時間経過したテキストプロンプトで任意の長さのモーション合成を行う。
論文参考訳（メタデータ） (2022-08-31T17:58:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。