TMD-Bench: A Multi-Level Evaluation Paradigm for Music-Dance Co-Generation
Abstractの概要
本論文は、テキスト駆動型の音楽・ダンス同時生成を評価するベンチマークTMD-Benchを提案している。このベンチマークは、単一モダリティの生成品質、指示への忠実度、およびクロスモーダルなリズム整合性の3軸でシステムを評価する。フレームワークは、音声・映像・音声映像同期に対して、低レベルの計算可能メトリクスと高レベルのMLLMベースの判定を組み合わせている。評価を支えるため、著者らは1万規模のリズム整合型音楽・ダンスデータセットを構築し、構造化された音楽意味論のためのMusic Captionerを開発した。また、フローマッチングに基づく統合型テキストから音楽・ダンスへの拡散モデルRhyJAMをオープンソースベースラインとして提示している。
新規性
主な新規性は、汎用的な音声映像の一貫性よりも細粒度のリズム結合が重要となる音楽・ダンス同時生成に特化したベンチマークの設計にある。本研究は、ビート中心の物理的整合メトリクス(VBCSおよびABHS)とMLLMによる知覚的判定を組み合わせ、さらにこの評価プロトコルをリズム整合データセット、構造化Music Captioner、および統合ベースラインモデルと対にすることで差別化を図っている。
成果
TMD-Benchの結果、商用音声映像生成器は単一モダリティでは高い品質を達成するものの、音楽とダンス間のリズム同期はシステム間で一貫していないことが示された(例:Sora 2はVBCS 0.50を達成するがABHSは0.16に留まる)。RhyJAMは最も高いビートカバレッジ(ABHS 0.27)を達成しつつVBCSでも最高値0.50に並び、知覚的整合スコア0.79で全てのオープンソースおよびカスケード型ベースラインを上回った。Music Captionerはテンポ(0.91)や機能的シーン(0.93)において高い意味ラベリングの一致度を示した。
論文の注目点
- TMD-Benchは、音声品質・映像品質・指示忠実度・クロスモーダルリズム整合性を網羅する三面的フレームワークを通じて音楽・ダンス同時生成を評価し、計算可能メトリクスとMLLMベースの知覚的判定の両方を使用する。
- ベンチマークはビート中心の指標(ビート近接度のVBCS、ビートカバレッジのABHS)にMLLMベースの知覚的整合スコアリングを補完したMDAlignを導入し、点的イベントマッチングを超えたリズムの一貫性を捉える。
- 実験により、全テスト対象システムにおいて強力な単一モダリティ生成と信頼性の高いリズム整合性の間に持続的なギャップが存在することが明らかになり、RhyJAMは平均メトリクス(0.59)でクローズドソースシステムを含む全手法中最良の統合整合スコアを達成した。