論文の概要: DuetGen: Music Driven Two-Person Dance Generation via Hierarchical Masked Modeling
- arxiv url: http://arxiv.org/abs/2506.18680v1
- Date: Mon, 23 Jun 2025 14:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.020372
- Title: DuetGen: Music Driven Two-Person Dance Generation via Hierarchical Masked Modeling
- Title(参考訳): DuetGen:階層型マスケッドモデリングによる音楽駆動2人舞踊生成
- Authors: Anindita Ghosh, Bing Zhou, Rishabh Dabral, Jian Wang, Vladislav Golyanik, Christian Theobalt, Philipp Slusallek, Chuan Guo,
- Abstract要約: 音楽から対話的な2人舞踊を生成するためのフレームワークであるDuetGenを提案する。
近年の運動合成の進歩に触発されて,我々は2段階の解法を提案する。
我々は、両方のダンサーの動きを統合された全体として表現し、必要な動きトークンを学習する。
- 参考スコア(独自算出の注目度): 70.79846001735547
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present DuetGen, a novel framework for generating interactive two-person dances from music. The key challenge of this task lies in the inherent complexities of two-person dance interactions, where the partners need to synchronize both with each other and with the music. Inspired by the recent advances in motion synthesis, we propose a two-stage solution: encoding two-person motions into discrete tokens and then generating these tokens from music. To effectively capture intricate interactions, we represent both dancers' motions as a unified whole to learn the necessary motion tokens, and adopt a coarse-to-fine learning strategy in both the stages. Our first stage utilizes a VQ-VAE that hierarchically separates high-level semantic features at a coarse temporal resolution from low-level details at a finer resolution, producing two discrete token sequences at different abstraction levels. Subsequently, in the second stage, two generative masked transformers learn to map music signals to these dance tokens: the first producing high-level semantic tokens, and the second, conditioned on music and these semantic tokens, producing the low-level tokens. We train both transformers to learn to predict randomly masked tokens within the sequence, enabling them to iteratively generate motion tokens by filling an empty token sequence during inference. Through the hierarchical masked modeling and dedicated interaction representation, DuetGen achieves the generation of synchronized and interactive two-person dances across various genres. Extensive experiments and user studies on a benchmark duet dance dataset demonstrate state-of-the-art performance of DuetGen in motion realism, music-dance alignment, and partner coordination.
- Abstract(参考訳): 音楽からインタラクティブな2人舞踊を生成するための新しいフレームワークであるDuetGenを提案する。
この課題の鍵となる課題は、パートナーが相互に音楽と同期する必要がある2人のダンスの相互作用の本質的な複雑さにある。
動作合成の最近の進歩に触発されて、2人の動作を離散トークンに符号化し、これらのトークンを音楽から生成する2段階の解法を提案する。
複雑な相互作用を効果的に捉えるため,両ダンサーの動きを総合的に表現し,必要な動作トークンを学習し,両ステージで粗い学習戦略を採用する。
我々の第1段階は、粗い時間分解能で高レベルのセマンティックな特徴を、より微細な分解能で低レベルの細部から階層的に分離するVQ-VAEを使用し、異なる抽象化レベルで2つの離散トークンシーケンスを生成する。
その後、第2段階では、2つの生成仮面変換器がこれらのダンストークンに音楽信号のマッピングを学習する。
我々は、両方のトランスフォーマーに、シーケンス内でランダムにマスクされたトークンを予測することを学ぶように訓練し、推論中に空のトークンシーケンスを埋めることで、反復的に動きトークンを生成することができる。
階層的なマスク付きモデリングと専用のインタラクション表現を通じて、DuetGenは様々なジャンルで同期された対話的な2人舞踊を生成する。
ベンチマークデュエットダンスデータセットの広範な実験とユーザスタディは、モーションリアリズム、音楽距離アライメント、パートナーコーディネーションにおけるDuetGenの最先端のパフォーマンスを示す。
関連論文リスト
- X-Dancer: Expressive Music to Human Dance Video Generation [26.544761204917336]
X-Dancerはゼロショット音楽駆動の画像アニメーションパイプラインである。
単一の静止画像から、多種多様で長い範囲の人間のダンスビデオを生成する。
論文 参考訳(メタデータ) (2025-02-24T18:47:54Z) - TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration [75.37311932218773]
テキストと音楽の両方を同時に組み込んだ3Dダンス運動を生成するための新しいタスクを提案する。
本手法は,テキストと音楽の両方に調和した現実的かつ一貫性のあるダンスの動きを生成できると同時に,2つの単一モーダルと同等の性能を維持することができる。
論文 参考訳(メタデータ) (2023-04-05T12:58:33Z) - BRACE: The Breakdancing Competition Dataset for Dance Motion Synthesis [123.73677487809418]
ダンス・モーション・シンセサイザーにおける一般的な仮定に挑戦する新しいデータセットを提案する。
我々は、アクロバティックな動きと絡み合った姿勢を特徴とするブレイクダンスに焦点を当てている。
BRACEデータセットは、3時間30分以上の濃密な注釈付きポーズを含む。
論文 参考訳(メタデータ) (2022-07-20T18:03:54Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Transflower: probabilistic autoregressive dance generation with
multimodal attention [31.308435764603658]
本稿では,従来のポーズに条件付き正規化フローと音楽文脈をモデル化した,確率的自己回帰型アーキテクチャを提案する。
第2に,プロとカジュアルの両方のダンサーを含む,さまざまなモーションキャプチャ技術で得られた,現在最大の3Dダンスモーションデータセットを紹介する。
論文 参考訳(メタデータ) (2021-06-25T20:14:28Z) - DanceFormer: Music Conditioned 3D Dance Generation with Parametric
Motion Transformer [23.51701359698245]
本稿では、2段階のプロセス, ie, キーポーズ生成, そしてパラメトリックな動き曲線の予測によってそれを再構成する。
本稿では,経験的アニメーターによって正確にラベル付けされた大規模な音楽条件付き3DダンスデータセットPhantomDanceを提案する。
実験により、提案手法は既存のデータセットで訓練されても、流動的で、演奏的で、音楽にマッチした3Dダンスを生成できることが示されている。
論文 参考訳(メタデータ) (2021-03-18T12:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。