論文の概要: SongBench: A Fine-Grained Multi-Aspect Benchmark for Song Quality Assessment
- arxiv url: http://arxiv.org/abs/2604.25937v1
- Date: Thu, 16 Apr 2026 04:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.389198
- Title: SongBench: A Fine-Grained Multi-Aspect Benchmark for Song Quality Assessment
- Title(参考訳): SongBench: 音質評価のための細粒度マルチアスペクトベンチマーク
- Authors: Dapeng Wu, Shun Lei, Wei Tan, Guangzheng Li, Yunzhe Wang, Huaicheng Zhang, Lishi Zuo, Zhiyong Wu,
- Abstract要約: SongBenchは、Vocal、Instrument、Melody、Structure、Arrangement、Mixing、Musicalityの7つの重要な側面にわたる、きめ細かい曲の評価のためのフレームワークである。
我々は,音楽専門家によってラベル付けされた最先端モデルの11,717個のサンプルからなるエキスパートアノテートデータベースを構築した。
- 参考スコア(独自算出の注目度): 18.828325404869275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Text-to-Song generation have enabled realistic musical content production, yet existing evaluation benchmarks lack the professional granularity to capture multi-dimensional aesthetic nuances. In this paper, we propose SongBench, a specialized framework for fine-grained song assessment across seven key dimensions: Vocal, Instrument, Melody, Structure, Arrangement, Mixing, and Musicality. Utilizing this framework, we construct an expert-annotated database comprising 11,717 samples from state-of-the-art models, labeled by music professionals. Extensive experimental results demonstrate that SongBench achieves high correlation with expert ratings. By revealing fine-grained performance gaps in current state-of-the-art models, SongBench serves as a diagnostic benchmark to steer the development toward more professional and musically coherent song generation.
- Abstract(参考訳): 近年のテキスト・ツー・ソン・ジェネレーションの進歩により、現実的な音楽コンテンツ制作が可能になったが、既存の評価ベンチマークでは、多次元の美的ニュアンスを捉えるための専門的な粒度が欠如している。
本稿では,声道,楽器,メロディ,構造,アレンジメント,ミキシング,音楽性という7つの重要な要素にまたがる,きめ細かな楽曲評価のための特殊なフレームワークであるSongBenchを提案する。
このフレームワークを利用することで,音楽専門家によってラベル付けされた最先端モデルの11,717個のサンプルからなるエキスパートアノテートデータベースを構築した。
実験結果から,SongBenchは専門家による評価と高い相関が得られた。
現行の最先端モデルの微妙なパフォーマンスギャップを明らかにすることで、SongBenchは、よりプロフェッショナルで音楽的に一貫性のある曲生成に向けた開発を支援するための診断ベンチマークとして機能する。
関連論文リスト
- Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。
データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。
我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文 参考訳(メタデータ) (2026-01-07T14:40:48Z) - Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Music Generation with Temporal Structure Augmentation [0.0]
提案手法は,歌の結末をカウントダウンしたコネクショニスト生成モデルと,余分な入力特徴としてメーターマーカーを付加する。
LSTMセルを持つRNNアーキテクチャは、教師付きシーケンス学習設定でノッティンガムフォークミュージックデータセットに基づいて訓練される。
実験では、両方のアノテーションの予測性能が改善された。
論文 参考訳(メタデータ) (2020-04-21T19:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。