論文の概要: ChoreoMuse: Robust Music-to-Dance Video Generation with Style Transfer and Beat-Adherent Motion
- arxiv url: http://arxiv.org/abs/2507.19836v1
- Date: Sat, 26 Jul 2025 07:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.276785
- Title: ChoreoMuse: Robust Music-to-Dance Video Generation with Style Transfer and Beat-Adherent Motion
- Title(参考訳): ChoreoMuse:スタイルトランスファーとビート・アドヒーレント・モーションを備えたロバスト・ミュージック・トゥ・ダンス・ビデオ・ジェネレーション
- Authors: Xuanchen Wang, Heng Wang, Weidong Cai,
- Abstract要約: SMPLフォーマットパラメータと変分バージョンを音楽とビデオ生成の仲介として使用する拡散ベースのフレームワークであるChoreoMuseを紹介する。
ChoreoMuseは、さまざまな音楽ジャンルと個々のダンサー特性にまたがって、スタイルコントロール可能な、高忠実なダンスビデオ生成をサポートする。
提案手法では、新しい音楽エンコーダであるMotionTuneを用いて、音声から動きの手がかりを捕捉し、生成した振付が入力された音楽のビートや表現性に密接に従うことを保証する。
- 参考スコア(独自算出の注目度): 10.21851621470535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern artistic productions increasingly demand automated choreography generation that adapts to diverse musical styles and individual dancer characteristics. Existing approaches often fail to produce high-quality dance videos that harmonize with both musical rhythm and user-defined choreography styles, limiting their applicability in real-world creative contexts. To address this gap, we introduce ChoreoMuse, a diffusion-based framework that uses SMPL format parameters and their variation version as intermediaries between music and video generation, thereby overcoming the usual constraints imposed by video resolution. Critically, ChoreoMuse supports style-controllable, high-fidelity dance video generation across diverse musical genres and individual dancer characteristics, including the flexibility to handle any reference individual at any resolution. Our method employs a novel music encoder MotionTune to capture motion cues from audio, ensuring that the generated choreography closely follows the beat and expressive qualities of the input music. To quantitatively evaluate how well the generated dances match both musical and choreographic styles, we introduce two new metrics that measure alignment with the intended stylistic cues. Extensive experiments confirm that ChoreoMuse achieves state-of-the-art performance across multiple dimensions, including video quality, beat alignment, dance diversity, and style adherence, demonstrating its potential as a robust solution for a wide range of creative applications. Video results can be found on our project page: https://choreomuse.github.io.
- Abstract(参考訳): 現代の芸術作品では、様々な音楽スタイルや個々のダンサーの特徴に適応する自動振付生成がますます求められている。
既存のアプローチでは、音楽リズムとユーザ定義の振付スタイルの両方を調和させる高品質なダンスビデオを作ることができず、現実のクリエイティブな文脈での適用性を制限している。
このギャップに対処するために,SMPLフォーマットパラメータとその変分バージョンを音楽とビデオ生成の仲介として使用する拡散型フレームワークであるChoreoMuseを導入する。
批判的に言えば、ChoreoMuseは様々なジャンルにわたるスタイル制御可能な高忠実なダンスビデオ生成と、どんな解像度でも参照された個人を扱える柔軟性を含む個々のダンサーの特徴をサポートする。
提案手法では、新しい音楽エンコーダであるMotionTuneを用いて、音声から動きの手がかりを捕捉し、生成した振付が入力された音楽のビートや表現性に密接に従うことを保証する。
生成したダンスが音楽と振付の両方のスタイルにどの程度うまくマッチするかを定量的に評価するために,意図したスタイルと整合性を測定する2つの新しい指標を導入する。
大規模な実験により、ChoreoMuseは、ビデオ品質、ビートアライメント、ダンスの多様性、スタイルの定着など、多次元にわたる最先端のパフォーマンスを達成し、幅広いクリエイティブアプリケーションのための堅牢なソリューションとしての可能性を示している。
ビデオの結果はプロジェクトのページで確認できます。
関連論文リスト
- MusicInfuser: Making Video Diffusion Listen and Dance [20.41612388764672]
MusicInfuserは、特定の音楽トラックに同期した高品質なダンスビデオを生成するアプローチである。
既存の映像拡散モデルがどのように音楽入力に適応できるかを示す。
論文 参考訳(メタデータ) (2025-03-18T17:59:58Z) - GCDance: Genre-Controlled 3D Full Body Dance Generation Driven By Music [22.352036716156967]
GCDanceは、音楽とテキストの両方のプロンプトに条件付きジャンル固有のダンスモーションを生成するための分類器なし拡散フレームワークである。
提案手法は,高レベルな事前学習音楽基礎モデルと手作りのマルチグラニュラリティ特徴融合機能を組み合わせることで,音楽の特徴を抽出する。
論文 参考訳(メタデータ) (2025-02-25T15:53:18Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - Controllable Dance Generation with Style-Guided Motion Diffusion [49.35282418951445]
ダンスは人間の文化において芸術的な形式や表現として重要な役割を担っているが、ダンスの創造は依然として困難な課題である。
ほとんどのダンス生成法は音楽のみに依存しており、音楽スタイルやジャンルといった本質的な特質を考慮することは滅多にない。
本研究では,ダンス生成の多様なタスクに適した拡散型フレームワークであるDGSDP(Flexible Dance Generation with Style Description Prompts)を紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:55:14Z) - Dance Any Beat: Blending Beats with Visuals in Dance Video Generation [12.018432669719742]
音楽によってガイドされた個人の画像から直接ダンスビデオを生成するという新しいタスクを導入する。
我々のソリューションであるDance Any Beat Diffusion Model (DabFusion)は、参照画像と楽曲を使用してダンスビデオを生成する。
AIST++データセットを用いてDabFusionの性能評価を行い,映像品質,オーディオ・ビデオ同期,モーション・ミュージックアライメントに着目した。
論文 参考訳(メタデータ) (2024-05-15T11:33:07Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Learning to Generate Diverse Dance Motions with Transformer [67.43270523386185]
ダンス・モーション・シンセサイザーのための完全なシステムを提案する。
大規模なダンスモーションデータセットはYouTubeビデオから作成される。
新たな2ストリームモーショントランス生成モデルでは、高い柔軟性で動作シーケンスを生成することができる。
論文 参考訳(メタデータ) (2020-08-18T22:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。