論文の概要: TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation
- arxiv url: http://arxiv.org/abs/2605.01809v1
- Date: Sun, 03 May 2026 10:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.947572
- Title: TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation
- Title(参考訳): TMD-Bench:音楽ダンス共同制作のためのマルチレベル評価パラダイム
- Authors: Xiaoda Yang, Majun Zhang, Changhao Pan, Nick Huang, Yang Yuguang, Fan Zhuo, Pengfei Zhou, Jin Zhou, Sizhe Shan, Shan Yang, Miles Yang, Yang You, Zhou Zhao,
- Abstract要約: TMD-Benchはテキスト駆動型音楽ダンスコージェネレーションのベンチマークである。
単調な生成品質、命令順守、およびモード間のリズミカルアライメントにまたがるシステムを評価する。
- 参考スコア(独自算出の注目度): 45.3416170884362
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Unified audio-visual generation is rapidly gaining industrial and creative relevance, enabling applications in virtual production and interactive media. However, when moving from general audio-video synthesis to music-dance co-generation, the task becomes substantially harder: musical rhythm, phrasing, and accents must drive choreographic motion at fine temporal resolution, and such rhythmic coupling is not captured by unimodal metrics or generic audiovisual consistency scores used in current evaluation practice. We introduce TMD-Bench, a benchmark for text-driven music-dance co-generation that assesses systems across unimodal generation quality, instruction adherence, and cross-modal rhythmic alignment. The benchmark integrates computable physical metrics with perceptual multimodal judgments, and is supported by a curated rhythm-aligned music-dance dataset and a fine-grained Music Captioner for structured music semantics. TMD-Bench further reveals that (i) modern commercial audio-visual models, such as Veo 3 and Sora 2, produce high-quality music and video, while rhythmic coupling remains less consistently optimized and leaves room for improvement, and (ii) our unified baseline RhyJAM trained on rhythm-aligned data achieves competitive beat-level synchronization while maintaining competitive unimodal fidelity. This presents prospects for building next-generation music-dance models that explicitly optimize rhythmic and kinetic coherence.
- Abstract(参考訳): 統一されたオーディオ視覚生成は、産業的および創造的な関係が急速に高まり、仮想プロダクションやインタラクティブメディアの応用を可能にしている。
しかし、一般的なオーディオビデオ合成から音楽・ダンス・コジェネレーションに移行する際には、音楽のリズム、フレーズ、アクセントが微妙な時間分解能で振付の動きを起こさなければならず、このようなリズムカップリングは、現在の評価実践で用いられる単調なメトリクスや一般的なオーディオ視覚的整合性スコアによって捉えられなくなる。
テキスト駆動型音楽距離コージェネレーションのベンチマークであるTMD-Benchを導入する。
このベンチマークは、計算可能な物理メトリクスと知覚的マルチモーダル判断を統合し、構造化音楽セマンティクスのためのリズム整列音楽ダンスデータセットときめ細かい音楽キャピタによってサポートされている。
TMD-Benchがさらにそれを明らかに
(i)Veo 3やSora 2のような現代の商用オーディオヴィジュアルモデルでは高品質な音楽やビデオが制作され、リズミカルカップリングは一貫して最適化されておらず改善の余地も残されている。
(II)リズムアライメントデータに基づいて訓練したRhyJAMは、競争力のある一方向の忠実さを維持しながら、競争力のあるビートレベルの同期を実現する。
これにより、リズミカルコヒーレンスと運動的コヒーレンスを明示的に最適化する次世代音楽ダンスモデルの構築が期待できる。
関連論文リスト
- Listen to Rhythm, Choose Movements: Autoregressive Multimodal Dance Generation via Diffusion and Mamba with Decoupled Dance Dataset [8.721362823189077]
Rhythm, Choose Movements (LRCM) は多様な入力モダリティと自己回帰ダンスモーション生成の両方をサポートする多モード誘導拡散フレームワークである。
受け入れ次第、完全なデータセットと事前トレーニングされたモデルを公開します。
論文 参考訳(メタデータ) (2026-01-06T14:59:22Z) - Tempo as the Stable Cue: Hierarchical Mixture of Tempo and Beat Experts for Music to 3D Dance Generation [62.82943523102]
音楽から3Dのダンス生成は、リアルでリズミカルに同期された人間のダンスを音楽から合成することを目的としている。
本研究では,階層的なテンポ認識型Mixture-of-ExpertsモジュールであるTempoMoEを提案する。
本研究では,TempoMoEがダンスの質とリズムアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-12-21T16:57:08Z) - GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment [16.93446224499017]
ダンス・トゥ・ミュージック・ジェネレーション(D2M)は、リズムと時間的にダンスの動きに合わせた音楽を自動的に合成することを目的としている。
リズム整合性と時間整合性を有する音楽生成のための2つの新しいモジュールを備えた拡散トランスフォーマーベースのフレームワークである textbfGACA-DiT を提案する。
AIST++とTikTokデータセットの実験では、GACA-DiTは客観的メトリクスと人的評価の両方で最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-10-28T09:26:59Z) - MotionBeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding [13.25040795516169]
MotionBeatは、モーションアラインな音楽表現学習のためのフレームワークである。
我々は、MotionBeatが、最先端のオーディオエンコーダを音楽からダンス生成で上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-15T07:44:32Z) - Let Your Video Listen to Your Music! [62.27731415767459]
本稿では,音楽トラックのリズムに合わせてビデオを自動的に編集する新しいフレームワークMVAAを提案する。
我々は、タスクをMVAAの2段階のプロセスにモジュール化し、動きをオーディオビートと整列させ、次にリズム対応のビデオ編集を行います。
このハイブリッドアプローチは、CogVideoX-5b-I2Vをバックボーンとして使用した1つのNVIDIA 4090 GPU上で10分以内の適応を可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:52:16Z) - MotionRAG-Diff: A Retrieval-Augmented Diffusion Framework for Long-Term Music-to-Dance Generation [10.203209816178552]
MotionRAG-Diffは、Retrieval-Augmented Generationと拡散に基づく改善を統合するハイブリッドフレームワークである。
我々の手法は3つの中核的な革新をもたらす。
動作品質、多様性、音楽-モーション同期の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-03T09:12:48Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Music-to-Dance Generation with Optimal Transport [48.92483627635586]
本稿では,音楽から3Dダンス振付を生成するためのMDOT-Net(Music-to-Dance with Optimal Transport Network)を提案する。
生成したダンス分布とグロモフ=ワッサーシュタイン距離の信頼度を評価するための最適な移動距離を導入し、ダンス分布と入力音楽の対応性を測定する。
論文 参考訳(メタデータ) (2021-12-03T09:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。