論文の概要: GCDance: Genre-Controlled Music-Driven 3D Full Body Dance Generation
- arxiv url: http://arxiv.org/abs/2502.18309v3
- Date: Mon, 29 Sep 2025 11:12:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.199283
- Title: GCDance: Genre-Controlled Music-Driven 3D Full Body Dance Generation
- Title(参考訳): GCDance:音楽駆動の3Dボディダンスジェネレーション
- Authors: Xinran Liu, Xu Dong, Shenbin Qian, Diptesh Kanojia, Wenwu Wang, Zhenhua Feng,
- Abstract要約: GCDanceは、ジャンル固有の3Dフルボディダンス生成のためのフレームワークで、音楽と記述テキストに条件付けされている。
我々は、入力プロンプト、明示的なジャンルラベル、自由形式の記述文をジャンル固有の制御信号にマッピングするテキストベースの制御機構を開発する。
テキストジャンル情報を抽出し、高品質な生成結果を維持することの目的をバランスさせるため、我々は新しいマルチタスク最適化戦略を提案する。
- 参考スコア(独自算出の注目度): 30.028340528694432
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music-driven dance generation is a challenging task as it requires strict adherence to genre-specific choreography while ensuring physically realistic and precisely synchronized dance sequences with the music's beats and rhythm. Although significant progress has been made in music-conditioned dance generation, most existing methods struggle to convey specific stylistic attributes in generated dance. To bridge this gap, we propose a diffusion-based framework for genre-specific 3D full-body dance generation, conditioned on both music and descriptive text. To effectively incorporate genre information, we develop a text-based control mechanism that maps input prompts, either explicit genre labels or free-form descriptive text, into genre-specific control signals, enabling precise and controllable text-guided generation of genre-consistent dance motions. Furthermore, to enhance the alignment between music and textual conditions, we leverage the features of a music foundation model, facilitating coherent and semantically aligned dance synthesis. Last, to balance the objectives of extracting text-genre information and maintaining high-quality generation results, we propose a novel multi-task optimization strategy. This effectively balances competing factors such as physical realism, spatial accuracy, and text classification, significantly improving the overall quality of the generated sequences. Extensive experimental results obtained on the FineDance and AIST++ datasets demonstrate the superiority of GCDance over the existing state-of-the-art approaches.
- Abstract(参考訳): 音楽によるダンス生成は、音楽のビートやリズムと物理的にリアルで正確に同期されたダンスシーケンスを保証しながら、ジャンル固有の振付に厳格に固執する必要があるため、難しい課題である。
音楽条件のダンス生成において大きな進歩があったが、既存のほとんどの方法は、生成されたダンスにおける特定のスタイル特性を伝えるのに苦労している。
このギャップを埋めるために、音楽と記述文の両方に条件付き、ジャンル固有の3Dフルボディダンス生成のための拡散ベースのフレームワークを提案する。
ジャンル情報を効果的に活用するために、明示的なジャンルラベルまたは自由形式の記述文の入力プロンプトをジャンル固有の制御信号にマッピングするテキストベース制御機構を開発し、ジャンル一貫性のあるダンス動作の正確かつ制御可能なテキストガイド生成を可能にする。
さらに,音楽とテクスチャの整合性を高めるために,音楽基盤モデルの特徴を活用し,一貫性とセマンティックに整合したダンス合成を容易にする。
最後に,テキスト固有情報を抽出し,高品質な生成結果を維持する目的のバランスをとるために,新しいマルチタスク最適化戦略を提案する。
これは、物理的リアリズム、空間精度、テキスト分類などの競合する要因を効果的にバランスさせ、生成されたシーケンスの全体的な品質を著しく改善する。
FineDanceとAIST++データセットで得られた大規模な実験結果は、既存の最先端アプローチよりもGCDanceの方が優れていることを示している。
関連論文リスト
- Lodge++: High-quality and Long Dance Generation with Vivid Choreography Patterns [48.54956784928394]
Lodge++は、高品質で、超長い、鮮やかなダンスを生成するためのコレオグラフィーフレームワークである。
計算効率の課題に対処するため、Lodge++では、粗いダンスから罰金までのダンスを生成するための2段階の戦略を採用している。
Lodge++は,様々なダンスジャンルに適した超長いダンスを高速に生成できることを示す広範な実験によって検証されている。
論文 参考訳(メタデータ) (2024-10-27T09:32:35Z) - Flexible Music-Conditioned Dance Generation with Style Description Prompts [41.04549275897979]
本稿では,ダンス生成の多種多様なタスクに適した拡散型フレームワークであるDGSDP(Flexible Dance Generation with Style Description Prompts)を紹介する。
このフレームワークの中核となるコンポーネントはMusic-Conditioned Style-Aware Diffusion (MCSAD)であり、TransformerベースのネットワークとMusic Style Modulationモジュールで構成される。
提案手法は, 長期的生成, ダンス・イン・ベントワイニング, ダンス・イン・ペイントなど, 様々なタスクにおいて, 音楽と正確に整合したリアルなダンス・シーケンスを生成する。
論文 参考訳(メタデータ) (2024-06-12T04:55:14Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - FineDance: A Fine-grained Choreography Dataset for 3D Full Body Dance
Generation [33.9261932800456]
ファインダンス(FineDance)は、ダンスのジャンルで最大の音楽とダンスのペアデータセットである。
従来手法に存在した単調・不自然な手の動きに対処するため,フルボディダンス生成ネットワークを提案する。
生成したダンスのジャンルマッチングと長期的安定性をさらに向上するため,Genre&Coherent aware Retrieval Moduleを提案する。
論文 参考訳(メタデータ) (2022-12-07T16:10:08Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Dual Learning Music Composition and Dance Choreography [57.55406449959893]
音楽とダンスは常に人間の活動の柱として共存しており、文化的、社会的、娯楽的な機能に大きく貢献している。
近年の研究では、音楽に調和したダンスシーケンスの生成モデルについて研究されている。
両タスクを二重学習アプローチで共同でモデル化する,新しい拡張を提案する。
論文 参考訳(メタデータ) (2022-01-28T09:20:28Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。