論文の概要: Tempo as the Stable Cue: Hierarchical Mixture of Tempo and Beat Experts for Music to 3D Dance Generation
- arxiv url: http://arxiv.org/abs/2512.18804v1
- Date: Sun, 21 Dec 2025 16:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.511988
- Title: Tempo as the Stable Cue: Hierarchical Mixture of Tempo and Beat Experts for Music to 3D Dance Generation
- Title(参考訳): 安定したキューとしてのテンポ--テンポとビート・エキスパートの階層的混合による3Dダンス生成
- Authors: Guangtao Lyu, Chenghao Xu, Qi Liu, Jiexi Yan, Muli Yang, Fen Fang, Cheng Deng,
- Abstract要約: 音楽から3Dのダンス生成は、リアルでリズミカルに同期された人間のダンスを音楽から合成することを目的としている。
本研究では,階層的なテンポ認識型Mixture-of-ExpertsモジュールであるTempoMoEを提案する。
本研究では,TempoMoEがダンスの質とリズムアライメントを実現することを示す。
- 参考スコア(独自算出の注目度): 62.82943523102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music to 3D dance generation aims to synthesize realistic and rhythmically synchronized human dance from music. While existing methods often rely on additional genre labels to further improve dance generation, such labels are typically noisy, coarse, unavailable, or insufficient to capture the diversity of real-world music, which can result in rhythm misalignment or stylistic drift. In contrast, we observe that tempo, a core property reflecting musical rhythm and pace, remains relatively consistent across datasets and genres, typically ranging from 60 to 200 BPM. Based on this finding, we propose TempoMoE, a hierarchical tempo-aware Mixture-of-Experts module that enhances the diffusion model and its rhythm perception. TempoMoE organizes motion experts into tempo-structured groups for different tempo ranges, with multi-scale beat experts capturing fine- and long-range rhythmic dynamics. A Hierarchical Rhythm-Adaptive Routing dynamically selects and fuses experts from music features, enabling flexible, rhythm-aligned generation without manual genre labels. Extensive experiments demonstrate that TempoMoE achieves state-of-the-art results in dance quality and rhythm alignment.
- Abstract(参考訳): 音楽から3Dのダンス生成は、リアルでリズミカルに同期された人間のダンスを音楽から合成することを目的としている。
既存の手法は、ダンス生成をさらに改善するために追加のジャンルのラベルに頼っていることが多いが、そのようなラベルは概して騒々しい、粗い、入手できない、あるいは現実の音楽の多様性を捉えるのに不十分であり、リズムのミスアライメントやスタイル的なドリフトをもたらす可能性がある。
対照的に、音楽リズムとペースを反映する中核的な特性であるテンポは、データセットやジャンル間で比較的一貫性が保たれており、典型的には60から200BPMである。
そこで本研究では,拡散モデルとそのリズム知覚を高める階層型テンポ認識混合モジュールであるTempoMoEを提案する。
TempoMoEは、運動の専門家を、異なるテンポ範囲のテンポ構造グループに分類する。
Hierarchical Rhythm-Adaptive Routingは、音楽機能から専門家を動的に選別し、融合させ、手動のジャンルラベルなしで柔軟なリズム整列生成を可能にする。
広範囲な実験により、TempoMoEはダンスの品質とリズムアライメントの最先端の成果を達成している。
関連論文リスト
- GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment [16.93446224499017]
ダンス・トゥ・ミュージック・ジェネレーション(D2M)は、リズムと時間的にダンスの動きに合わせた音楽を自動的に合成することを目的としている。
リズム整合性と時間整合性を有する音楽生成のための2つの新しいモジュールを備えた拡散トランスフォーマーベースのフレームワークである textbfGACA-DiT を提案する。
AIST++とTikTokデータセットの実験では、GACA-DiTは客観的メトリクスと人的評価の両方で最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-10-28T09:26:59Z) - Align Your Rhythm: Generating Highly Aligned Dance Poses with Gating-Enhanced Rhythm-Aware Feature Representation [22.729568599120846]
本研究では、リズム認識機能表現を強化するためにゲーティング機構を活用する新しいフレームワークであるDancebaを提案する。
位相に基づくリズム抽出(PRE)により、音楽相データからリズム情報を正確に抽出する。
TGCA(Temporal-Gated Causal Attention)は、グローバルリズミカルな特徴に焦点を当てる。
上肢と下肢の運動を別々にモデル化する並列マンバ運動モデリング(PMMM)アーキテクチャ。
論文 参考訳(メタデータ) (2025-03-21T17:42:50Z) - GCDance: Genre-Controlled Music-Driven 3D Full Body Dance Generation [30.028340528694432]
GCDanceは、ジャンル固有の3Dフルボディダンス生成のためのフレームワークで、音楽と記述テキストに条件付けされている。
我々は、入力プロンプト、明示的なジャンルラベル、自由形式の記述文をジャンル固有の制御信号にマッピングするテキストベースの制御機構を開発する。
テキストジャンル情報を抽出し、高品質な生成結果を維持することの目的をバランスさせるため、我々は新しいマルチタスク最適化戦略を提案する。
論文 参考訳(メタデータ) (2025-02-25T15:53:18Z) - Controllable Dance Generation with Style-Guided Motion Diffusion [49.35282418951445]
ダンスは人間の文化において芸術的な形式や表現として重要な役割を担っているが、ダンスの創造は依然として困難な課題である。
ほとんどのダンス生成法は音楽のみに依存しており、音楽スタイルやジャンルといった本質的な特質を考慮することは滅多にない。
本研究では,ダンス生成の多様なタスクに適した拡散型フレームワークであるDGSDP(Flexible Dance Generation with Style Description Prompts)を紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:55:14Z) - DiffDance: Cascaded Human Motion Diffusion Model for Dance Generation [89.50310360658791]
本稿では,高分解能長周期ダンス生成のための新しい動き拡散モデルDiffDanceを提案する。
本モデルは、音楽間拡散モデルとシーケンス超解像拡散モデルとから構成される。
DiffDanceは、入力された音楽と効果的に一致したリアルなダンスシーケンスを生成することができることを実証する。
論文 参考訳(メタデータ) (2023-08-05T16:18:57Z) - Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic
Memory [92.81383016482813]
そこで我々は3Dキャラクターを1曲の楽曲に追従して踊るための新しい音楽間距離フレームワークBailandoを提案する。
本稿では,音楽に忠実な流麗なダンスにユニットを構成するアクタ批判型生成事前学習変換器(GPT)を紹介する。
提案するフレームワークは,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-24T13:06:43Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z) - Rhythm is a Dancer: Music-Driven Motion Synthesis with Global Structure [47.09425316677689]
本稿では、入力ビートと同期した人間の動作の長期シーケンスを生成する音楽駆動型モーション合成フレームワークを提案する。
我々のフレームワークは、ビートだけでなく、音楽の内容によって制御される多様な動きの生成を可能にする。
論文 参考訳(メタデータ) (2021-11-23T21:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。