論文の概要: SingMOS-Pro: An Comprehensive Benchmark for Singing Quality Assessment
- arxiv url: http://arxiv.org/abs/2510.01812v1
- Date: Thu, 02 Oct 2025 08:53:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.258773
- Title: SingMOS-Pro: An Comprehensive Benchmark for Singing Quality Assessment
- Title(参考訳): SingMOS-Pro: 歌声品質評価のための総合ベンチマーク
- Authors: Yuxun Tang, Lan Liu, Wenhao Feng, Yiwen Zhao, Jionghao Han, Yifeng Yu, Jiatong Shi, Qin Jin,
- Abstract要約: 自動歌唱品質評価のためのデータセットであるSingMOS-Proを紹介する。
SingMOS-Proは、追加部分のアノテーションを拡張して、歌詞、メロディ、全体的な品質を含む。
データセットには、12データセットにわたる41のモデルによって生成された7,981の歌声クリップが含まれている。
- 参考スコア(独自算出の注目度): 52.656281676548645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing voice generation progresses rapidly, yet evaluating singing quality remains a critical challenge. Human subjective assessment, typically in the form of listening tests, is costly and time consuming, while existing objective metrics capture only limited perceptual aspects. In this work, we introduce SingMOS-Pro, a dataset for automatic singing quality assessment. Building on our preview version SingMOS, which provides only overall ratings, SingMOS-Pro expands annotations of the additional part to include lyrics, melody, and overall quality, offering broader coverage and greater diversity. The dataset contains 7,981 singing clips generated by 41 models across 12 datasets, spanning from early systems to recent advances. Each clip receives at least five ratings from professional annotators, ensuring reliability and consistency. Furthermore, we explore how to effectively utilize MOS data annotated under different standards and benchmark several widely used evaluation methods from related tasks on SingMOS-Pro, establishing strong baselines and practical references for future research. The dataset can be accessed at https://huggingface.co/datasets/TangRain/SingMOS-Pro.
- Abstract(参考訳): 歌声生成は急速に進行するが、歌声の質を評価することは依然として重要な課題である。
人間の主観的評価(典型的には聞き取りテスト)はコストと時間を要するが、既存の客観的指標は限られた知覚的側面しか捉えていない。
本研究では,歌声品質自動評価のためのデータセットであるSingMOS-Proを紹介する。
SingMOS-Proは、全体的な評価のみを提供するプレビューバージョンであるSingMOSに基づいて、追加部分のアノテーションを拡張して、歌詞、メロディ、全体的な品質を含み、より広範なカバレッジと多様性を提供します。
データセットには、12データセットにわたる41のモデルによって生成された7,981の歌声クリップが含まれている。
各クリップはプロのアノテータから少なくとも5つの評価を受け取り、信頼性と一貫性を確保する。
さらに,異なる標準の下でアノテートされたMOSデータを効果的に活用する方法について検討し,SingMOS-Proに関連するタスクから広く利用されているいくつかの評価手法をベンチマークし,強力なベースラインと実践的基準を確立する。
データセットはhttps://huggingface.co/datasets/TangRain/SingMOS-Proでアクセスできる。
関連論文リスト
- SALF-MOS: Speaker Agnostic Latent Features Downsampled for MOS Prediction [1.8862680628828246]
音声合成の評価は、客観的指標または主観的指標を用いて行うことができる。
Speaker Agnostic Latent Features (SALF)-Mean Opinion Score (MOS)は,5。
畳み込みのシーケンスを用いて、平均二乗誤差(MSE)、線形一致相関係数(LCC)、スピアマンランク相関係数(SRCC)、ケンドールランク相関係数(KTAU)に基づいて、音声サンプルの潜時特徴を得る。
論文 参考訳(メタデータ) (2025-06-02T10:45:40Z) - Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation [25.476596046882854]
音声品質評価には、平均世論スコア(MOS)や話者類似度(SIM)など、複数の側面から音声を評価する必要があるのが一般的である。
本稿では,最近導入された聴覚大言語モデル(LLM)を音声品質自動評価に活用することを提案する。
論文 参考訳(メタデータ) (2024-09-25T05:44:44Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - MOSPC: MOS Prediction Based on Pairwise Comparison [32.55704173124071]
MOS(Mean opinion score)は、合成音声の品質を評価する主観的尺度である。
ペア比較(MOSPC)に基づくMOS予測のための一般的なフレームワークを提案する。
筆者らのフレームワークは,各きめ細かなセグメントのランキング精度において,強いベースラインを超えている。
論文 参考訳(メタデータ) (2023-06-18T07:38:17Z) - Speech MOS multi-task learning and rater bias correction [10.123346550775471]
平均意見スコア(MOS)は、音声品質の知覚的評価のために標準化され、聞き手に音声サンプルの品質を評価させる。
本稿では,視覚的MOS推定モデルの性能向上のために,学習中にラベルやデータを追加するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-04T20:06:27Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。