論文の概要: Diffusion-based Human Motion Style Transfer with Semantic Guidance
- arxiv url: http://arxiv.org/abs/2405.06646v2
- Date: Wed, 7 Aug 2024 14:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 15:25:48.698824
- Title: Diffusion-based Human Motion Style Transfer with Semantic Guidance
- Title(参考訳): Semantic Guidanceを用いた拡散型ヒューマンモーションスタイルトランスファー
- Authors: Lei Hu, Zihao Zhang, Yongjing Ye, Yiwen Xu, Shihong Xia,
- Abstract要約: 拡散モデルに基づく数ショットスタイルのトランスファー学習のための新しいフレームワークを提案する。
第1段階では,拡散に基づくテキスト・ツー・モーション・モデルを生成前として事前学習する。
第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。
- 参考スコア(独自算出の注目度): 23.600154466988073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Human motion style transfer is a fundamental problem in computer graphic and animation processing. Existing AdaIN- based methods necessitate datasets with balanced style distribution and content/style labels to train the clustered latent space. However, we may encounter a single unseen style example in practical scenarios, but not in sufficient quantity to constitute a style cluster for AdaIN-based methods. Therefore, in this paper, we propose a novel two-stage framework for few-shot style transfer learning based on the diffusion model. Specifically, in the first stage, we pre-train a diffusion-based text-to-motion model as a generative prior so that it can cope with various content motion inputs. In the second stage, based on the single style example, we fine-tune the pre-trained diffusion model in a few-shot manner to make it capable of style transfer. The key idea is regarding the reverse process of diffusion as a motion-style translation process since the motion styles can be viewed as special motion variations. During the fine-tuning for style transfer, a simple yet effective semantic-guided style transfer loss coordinated with style example reconstruction loss is introduced to supervise the style transfer in CLIP semantic space. The qualitative and quantitative evaluations demonstrate that our method can achieve state-of-the-art performance and has practical applications.
- Abstract(参考訳): コンピュータグラフィックスおよびアニメーション処理における3次元モーションスタイル転送は基本的な問題である。
既存のAdaINベースのメソッドは、クラスタ化された潜在空間をトレーニングするために、バランスのとれたスタイルの分散とコンテンツ/スタイルのラベルを持つデータセットを必要とする。
しかし,AdaINをベースとした手法のスタイルクラスタを構成するのに十分な量ではありませんでした。
そこで本論文では,拡散モデルに基づく少数ショットスタイルのトランスファー学習のための新しい2段階フレームワークを提案する。
特に、第1段階では、様々なコンテンツ動作入力に対処できるように、拡散に基づくテキスト・トゥ・モーションモデルを生成前として事前訓練する。
第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。
キーとなる考え方は、運動スタイルを特別な動きのバリエーションと見なすことができるため、運動スタイル翻訳プロセスとしての拡散の逆過程に関するものである。
スタイル転送を微調整する際、CLIPセマンティック空間におけるスタイル転送を監督するために、スタイルの例再構成損失と協調した、シンプルで効果的なセマンティック誘導型スタイル転送損失を導入する。
定性的かつ定量的な評価は,本手法が最先端の性能を達成でき,実用的応用が期待できることを示す。
関連論文リスト
- SMooDi: Stylized Motion Diffusion Model [46.293854851116215]
本稿では、コンテンツテキストとスタイルシーケンスによって駆動されるスタイル化された動作を生成するための、SMooDiと呼ばれる新しいスティル化モーション拡散モデルを提案する。
提案手法は,従来のスタイル化動作生成手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-17T17:59:42Z) - SMCD: High Realism Motion Style Transfer via Mamba-based Diffusion [12.426879081036116]
スタイル転送は映画、ゲーム、メタバースといったマルチメディアシナリオに広く適用されている。
この分野での現在の研究のほとんどはGANを採用しており、不安定性と収束の問題に繋がる可能性がある。
動作のスタイル特徴をより包括的に学習できるSMCD(Style Motion Conditioned Diffusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-05T08:28:07Z) - MoST: Motion Style Transformer between Diverse Action Contents [23.62426940733713]
そこで本研究では,コンテンツからスタイルを効果的に切り離し,ソースモーションから転送されたスタイルを持つ可視動作を生成する新しい動き変換器を提案する。
提案手法は既存の手法より優れており,特に異なる内容のモーションペアにおいて,後処理を必要とせず,非常に高品質であることを示す。
論文 参考訳(メタデータ) (2024-03-10T14:11:25Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - Customizing Motion in Text-to-Video Diffusion Models [79.4121510826141]
動作をカスタマイズしたテキスト・ビデオ・ジェネレーション・モデルを構築するためのアプローチを提案する。
入力として特定の動きを示すビデオサンプルを活用することで,入力動作パターンを多種多様なテキスト特定シナリオに対して学習し,一般化する。
論文 参考訳(メタデータ) (2023-12-07T18:59:03Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Unifying Human Motion Synthesis and Style Transfer with Denoising
Diffusion Probabilistic Models [9.789705536694665]
デジタル人間のためのリアルな動きを生成することは、コンピュータアニメーションやゲームの中核だが挑戦的な部分である。
スタイル付きモーション合成のためのデノナイズ拡散モデル解を提案する。
局所的な誘導のために人の動きの側面を戦略的に生成する拡散モデルのマルチタスクアーキテクチャを設計する。
論文 参考訳(メタデータ) (2022-12-16T15:15:34Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z) - Unpaired Motion Style Transfer from Video to Animation [74.15550388701833]
1つのアニメーションクリップからもう1つのアニメーションクリップへモーションスタイルを転送する一方で、後者のモーションコンテンツを保存することは、キャラクターアニメーションにおいて長年の課題であった。
本稿では,スタイルラベル付き動きの集合から学習する動きスタイル伝達のための新しいデータ駆動フレームワークを提案する。
本フレームワークでは,映像から直接動作スタイルを抽出し,3次元再構成をバイパスし,これらを3次元入力動作に適用することができる。
論文 参考訳(メタデータ) (2020-05-12T13:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。