論文の概要: DanceFusion: A Spatio-Temporal Skeleton Diffusion Transformer for Audio-Driven Dance Motion Reconstruction
- arxiv url: http://arxiv.org/abs/2411.04646v1
- Date: Thu, 07 Nov 2024 12:11:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:37.149677
- Title: DanceFusion: A Spatio-Temporal Skeleton Diffusion Transformer for Audio-Driven Dance Motion Reconstruction
- Title(参考訳): DanceFusion: オーディオ駆動ダンスモーション再構成のための時空間スケルトン拡散変換器
- Authors: Li Zhao, Zhengmin Lu,
- Abstract要約: 本稿では,音楽に同期したダンスの動きを再現・生成するための新しいフレームワークであるDanceFusionを紹介する。
このフレームワークは、TikTokのようなソーシャルメディアプラットフォーム上のショートフォームダンスビデオでよく見られる不完全で騒がしい骨格データを扱う。
総合的な評価は、DanceFusionが既存の手法を超越し、ダイナミックでリアルでスタイリスティックに多様なダンスモーションを生成する最先端のパフォーマンスを提供することを示している。
- 参考スコア(独自算出の注目度): 3.2189686611762163
- License:
- Abstract: This paper introduces DanceFusion, a novel framework for reconstructing and generating dance movements synchronized to music, utilizing a Spatio-Temporal Skeleton Diffusion Transformer. The framework adeptly handles incomplete and noisy skeletal data common in short-form dance videos on social media platforms like TikTok. DanceFusion incorporates a hierarchical Transformer-based Variational Autoencoder (VAE) integrated with a diffusion model, significantly enhancing motion realism and accuracy. Our approach introduces sophisticated masking techniques and a unique iterative diffusion process that refines the motion sequences, ensuring high fidelity in both motion generation and synchronization with accompanying audio cues. Comprehensive evaluations demonstrate that DanceFusion surpasses existing methods, providing state-of-the-art performance in generating dynamic, realistic, and stylistically diverse dance motions. Potential applications of this framework extend to content creation, virtual reality, and interactive entertainment, promising substantial advancements in automated dance generation. Visit our project page at https://th-mlab.github.io/DanceFusion/.
- Abstract(参考訳): 本稿では,時空間スケルトン拡散変換器を用いて,音楽に同期したダンスの動きを再現・生成するための新しいフレームワークであるDanceFusionを紹介する。
このフレームワークは、TikTokのようなソーシャルメディアプラットフォーム上のショートフォームダンスビデオでよく見られる不完全で騒がしい骨格データを扱う。
DanceFusionは階層型トランスフォーマーベースの変分自動エンコーダ(VAE)を拡散モデルに統合し、モーションリアリズムと精度を大幅に向上させる。
提案手法は,高度なマスキング手法とユニークな反復拡散プロセスを導入し,動き系列を洗練し,動きの発生と伴奏音声の同期の両面において高い忠実性を確保する。
総合的な評価は、DanceFusionが既存の手法を超越し、ダイナミックでリアルでスタイリスティックに多様なダンスモーションを生成する最先端のパフォーマンスを提供することを示している。
このフレームワークの潜在的な応用は、コンテンツ制作、バーチャルリアリティ、インタラクティブエンターテイメントにまで拡張され、自動ダンス生成の大幅な進歩を約束する。
プロジェクトページはhttps://th-mlab.github.io/DanceFusion/にある。
関連論文リスト
- DanceCamAnimator: Keyframe-Based Controllable 3D Dance Camera Synthesis [49.614150163184064]
ダンスカメラの動きは、可変長の連続的なシーケンスと、複数のカメラの切り替えをシミュレートする突然の変化の両方を含む。
本稿では,この課題をアニメーター検出,合成,ツイーン関数予測という3段階のプロセスとして定式化し,撮影知識を統合することを提案する。
この定式化に続いて、人間のアニメーション手順を模倣し、可変長の強力な制御性を示す新しいエンドツーエンドのダンスカメラフレームワーク textbfDanceCamAnimator を設計する。
論文 参考訳(メタデータ) (2024-09-23T11:20:44Z) - Bidirectional Autoregressive Diffusion Model for Dance Generation [26.449135437337034]
本稿では,双方向自己回帰拡散モデル(BADM)を提案する。
生成したダンスが前方方向と後方方向の両方で調和することを強制するために、双方向エンコーダが構築される。
生成したダンス動作をよりスムーズにするため、局所運動強調のための局所情報デコーダを構築する。
論文 参考訳(メタデータ) (2024-02-06T19:42:18Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - Dance Style Transfer with Cross-modal Transformer [17.216186480300756]
CycleDanceは、あるダンススタイルの既存のモーションクリップを別のダンススタイルのモーションクリップに変換するダンススタイルのトランスファーシステムである。
提案手法は,既存のCycleGANアーキテクチャを拡張して音声シーケンスをモデル化し,マルチモーダルトランスフォーマーエンコーダを統合する。
論文 参考訳(メタデータ) (2022-08-19T15:48:30Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Transflower: probabilistic autoregressive dance generation with
multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。
第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文 参考訳(メタデータ) (2021-06-25T20:14:28Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。