論文の概要: DanceMosaic: High-Fidelity Dance Generation with Multimodal Editability
- arxiv url: http://arxiv.org/abs/2504.04634v1
- Date: Sun, 06 Apr 2025 22:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:23.458277
- Title: DanceMosaic: High-Fidelity Dance Generation with Multimodal Editability
- Title(参考訳): DanceMosaic:マルチモーダル編集が可能な高忠実ダンスジェネレーション
- Authors: Foram Niravbhai Shah, Parshwa Shah, Muhammad Usama Saleem, Ekkasit Pinyoanuntapong, Pu Wang, Hongfei Xue, Ahmed Helmy,
- Abstract要約: DanceMosaicは高速かつ高忠実なダンス生成を可能にし、マルチモーダルモーション編集を可能にする。
本稿では,テキスト・ツー・モーション・モデルに音楽とポーズ・アダプタを融合したマルチモーダル・マスク・モーション・モデルを提案する。
提案手法は,ダンス生成における新たな最先端性能を確立し,既存の手法によって達成された品質と編集性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 5.980490485329908
- License:
- Abstract: Recent advances in dance generation have enabled automatic synthesis of 3D dance motions. However, existing methods still struggle to produce high-fidelity dance sequences that simultaneously deliver exceptional realism, precise dance-music synchronization, high motion diversity, and physical plausibility. Moreover, existing methods lack the flexibility to edit dance sequences according to diverse guidance signals, such as musical prompts, pose constraints, action labels, and genre descriptions, significantly restricting their creative utility and adaptability. Unlike the existing approaches, DanceMosaic enables fast and high-fidelity dance generation, while allowing multimodal motion editing. Specifically, we propose a multimodal masked motion model that fuses the text-to-motion model with music and pose adapters to learn probabilistic mapping from diverse guidance signals to high-quality dance motion sequences via progressive generative masking training. To further enhance the motion generation quality, we propose multimodal classifier-free guidance and inference-time optimization mechanism that further enforce the alignment between the generated motions and the multimodal guidance. Extensive experiments demonstrate that our method establishes a new state-of-the-art performance in dance generation, significantly advancing the quality and editability achieved by existing approaches.
- Abstract(参考訳): 近年のダンス生成の進歩により、3次元ダンスモーションの自動合成が可能となった。
しかし、既存の手法は、並外れたリアリズム、正確なダンスと音楽の同期、ハイモーションの多様性、物理的妥当性を同時にもたらす高忠実なダンスシーケンスを作り出すのに苦慮している。
さらに、既存の方法は、音楽のプロンプト、ポーズの制約、アクションラベル、ジャンルの説明など、多様な指導信号に従ってダンスシーケンスを編集する柔軟性に欠けており、創造性や適応性を著しく制限している。
既存のアプローチとは異なり、DanceMosaicは高速かつ高忠実なダンス生成を可能にし、マルチモーダルモーション編集を可能にする。
具体的には,テキスト・ツー・モーション・モデルと音楽とを融合させたマルチモーダル・マスク・モーション・モデルを提案し,多様な誘導信号からプログレッシブ・ジェネレーション・マスク・トレーニングを通じて高品質なダンス・モーション・シーケンスへの確率的マッピングを学習する。
動作生成の質をさらに高めるため、生成した動作とマルチモーダルガイダンスとのアライメントをさらに強化するマルチモーダル分類器フリーガイダンスと推論時間最適化機構を提案する。
大規模な実験により,本手法はダンス生成における新たな最先端性能を確立し,既存の手法によって達成された品質と編集性を大幅に向上させることを示した。
関連論文リスト
- InterDance:Reactive 3D Dance Generation with Realistic Duet Interactions [67.37790144477503]
動きの質、データスケール、さまざまなダンスジャンルを大幅に向上させる大規模なデュエットダンスデータセットであるInterDanceを提案する。
本稿では,対話のリアリズムを段階的に最適化するためのインタラクション改善指導戦略を備えた拡散型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-22T11:53:51Z) - DanceFusion: A Spatio-Temporal Skeleton Diffusion Transformer for Audio-Driven Dance Motion Reconstruction [3.2189686611762163]
本稿では,音楽に同期したダンスの動きを再現・生成するための新しいフレームワークであるDanceFusionを紹介する。
このフレームワークは、TikTokのようなソーシャルメディアプラットフォーム上のショートフォームダンスビデオでよく見られる不完全で騒がしい骨格データを扱う。
総合的な評価は、DanceFusionが既存の手法を超越し、ダイナミックでリアルでスタイリスティックに多様なダンスモーションを生成する最先端のパフォーマンスを提供することを示している。
論文 参考訳(メタデータ) (2024-11-07T12:11:11Z) - Duolando: Follower GPT with Off-Policy Reinforcement Learning for Dance Accompaniment [87.20240797625648]
舞踊伴奏と呼ばれる3次元舞踊生成の分野における新しい課題を紹介する。
これは、リードダンサーの動きと、基礎となる音楽リズムと同期した「フォロワー」と呼ばれるダンスパートナーからの応答的な動きを生成する必要がある。
本稿では,GPTに基づくDuolandoモデルを提案する。このモデルでは,音楽の協調情報,リーダの動作,従者の動きに基づいて,後続のトークン化動作を自動回帰予測する。
論文 参考訳(メタデータ) (2024-03-27T17:57:02Z) - Bidirectional Autoregressive Diffusion Model for Dance Generation [26.449135437337034]
本稿では,双方向自己回帰拡散モデル(BADM)を提案する。
生成したダンスが前方方向と後方方向の両方で調和することを強制するために、双方向エンコーダが構築される。
生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。
論文 参考訳(メタデータ) (2024-02-06T19:42:18Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。