論文の概要: TeMuDance: Contrastive Alignment-Based Textual Control for Music-Driven Dance Generation
- arxiv url: http://arxiv.org/abs/2604.17005v1
- Date: Sat, 18 Apr 2026 14:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.282405
- Title: TeMuDance: Contrastive Alignment-Based Textual Control for Music-Driven Dance Generation
- Title(参考訳): TeMuDance: 音楽駆動ダンス生成のためのコントラストアライメントに基づくテキスト制御
- Authors: Xinran Liu, Diptesh Kanojia, Wenwu Wang, Zhenhua Feng,
- Abstract要約: TeMuDanceは、音楽条件のダンス生成のためのテキストベースの制御を可能にするフレームワークである。
動作を共有セマンティックアンカーとして使用して、相容れない音楽ダンスとテキストモーションデータセットをアライメントする。
既存の手法に対するテキスト条件制御を大幅に改善しながら、競争力のあるダンス品質を実現する。
- 参考スコア(独自算出の注目度): 32.964897427586166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing music-driven dance generation approaches have achieved strong realism and effective audio-motion alignment. However, they generally lack semantic controllability, making it difficult to guide specific movements through natural language descriptions. This limitation primarily stems from the absence of large-scale datasets that jointly align music, text, and motion for supervised learning of text-conditioned control. To address this challenge, we propose TeMuDance, a framework that enables text-based control for music-conditioned dance generation without requiring any manually annotated music-text-motion triplet dataset. TeMuDance introduces a motion-centred bridging paradigm that leverages motion as a shared semantic anchor to align disjoint music-dance and text-motion datasets within a unified embedding space, enabling cross-modal retrieval of missing modalities for end-to-end training. A lightweight text control branch is then trained on top of a frozen music-to-dance diffusion backbone, preserving rhythmic fidelity while enabling fine-grained semantic guidance. To further suppress noise inherent in the retrieved supervision, we design a dual-stream fine-tuning strategy with confidence-based filtering. We also propose a novel task-aligned metric that quantifies whether textual prompts induce the intended kinematic attributes under music conditioning. Extensive experiments demonstrate that TeMuDance achieves competitive dance quality while substantially improving text-conditioned control over existing methods.
- Abstract(参考訳): 既存の音楽駆動ダンス生成アプローチは、強いリアリズムと効果的なオーディオモーションアライメントを実現している。
しかし、それらは一般的に意味制御性に欠けており、自然言語の記述を通して特定の動きを導くことは困難である。
この制限は主に、テキスト条件制御の教師あり学習のために、音楽、テキスト、動きを協調的に調整する大規模なデータセットが存在しないことに起因する。
この課題に対処するために,手動で注釈付けされた音楽テキスト・モーション・トリプルトデータセットを必要とせずに,音楽条件のダンス生成をテキストベースで制御できるフレームワークTeMuDanceを提案する。
TeMuDanceは、モーションを共有セマンティックアンカーとして活用して、統合された埋め込み空間内で不整合音楽ダンスとテキストモーションデータセットを整列させ、エンドツーエンドのトレーニングに欠落したモダリティを相互に検索できるようにする、モーション中心ブリッジのパラダイムを導入している。
ライトウェイトテキストコントロールブランチは、凍結した音楽間拡散バックボーン上にトレーニングされ、リズムの忠実さを保ちながら、きめ細かいセマンティックガイダンスを可能にする。
検索した監視に固有の雑音をさらに抑制するために,信頼度に基づくフィルタリングを用いた2ストリーム微調整方式を設計する。
また,音楽条件下でテキストプロンプトが意図したキネマティックな属性を誘導するかどうかを定量化するタスクアライメント尺度を提案する。
大規模な実験により、TeMuDanceは既存の方法に対するテキスト条件制御を大幅に改善しながら、競争力のあるダンス品質を実現することが示された。
関連論文リスト
- MotionBeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding [13.25040795516169]
MotionBeatは、モーションアラインな音楽表現学習のためのフレームワークである。
我々は、MotionBeatが、最先端のオーディオエンコーダを音楽からダンス生成で上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-15T07:44:32Z) - MDD: A Dataset for Text-and-Music Conditioned Duet Dance Generation [16.657210427678198]
テキスト制御および音楽条件付き3Dデュエットダンスモーション生成用に設計された多モードベンチマークデータセットであるMultimodal DuetDance(MDD)を紹介する。
我々のデータセットは、プロのダンサーが行う620分間の高品質なモーションキャプチャーデータからなり、音楽と同期し、10K以上のきめ細かい自然言語記述を詳述する。
アノテーションは、空間的関係、身体の動き、リズムを詳述し、人間の動き、音楽、そしてデュエットダンス生成のためのテキストをシームレスに統合する最初のデータセットとなる。
論文 参考訳(メタデータ) (2025-08-23T05:56:37Z) - DanceChat: Large Language Model-Guided Music-to-Dance Generation [8.455652926559427]
音楽からダンスへの生成は、音楽入力に基づく人間のダンスの動きを合成することを目的としている。
本研究では,Large Language Model (LLM) を用いた音楽間距離生成手法であるDanceChatを紹介する。
論文 参考訳(メタデータ) (2025-06-12T11:03:47Z) - GCDance: Genre-Controlled Music-Driven 3D Full Body Dance Generation [30.028340528694432]
GCDanceは、ジャンル固有の3Dフルボディダンス生成のためのフレームワークで、音楽と記述テキストに条件付けされている。
我々は、入力プロンプト、明示的なジャンルラベル、自由形式の記述文をジャンル固有の制御信号にマッピングするテキストベースの制御機構を開発する。
テキストジャンル情報を抽出し、高品質な生成結果を維持することの目的をバランスさせるため、我々は新しいマルチタスク最適化戦略を提案する。
論文 参考訳(メタデータ) (2025-02-25T15:53:18Z) - Controllable Dance Generation with Style-Guided Motion Diffusion [49.35282418951445]
ダンスは人間の文化において芸術的な形式や表現として重要な役割を担っているが、ダンスの創造は依然として困難な課題である。
ほとんどのダンス生成法は音楽のみに依存しており、音楽スタイルやジャンルといった本質的な特質を考慮することは滅多にない。
本研究では,ダンス生成の多様なタスクに適した拡散型フレームワークであるDGSDP(Flexible Dance Generation with Style Description Prompts)を紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:55:14Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。