論文の概要: Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation
- arxiv url: http://arxiv.org/abs/2411.12719v2
- Date: Sun, 15 Dec 2024 20:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:54.064895
- Title: Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation
- Title(参考訳): MUSHRAの再考 : テキスト・音声評価における現代的課題への取り組み
- Authors: Praveen Srinivasa Varadhan, Amogh Gulati, Ashwin Sankar, Srija Anand, Anirudh Gupta, Anirudh Mukherjee, Shiva Kumar Marepally, Ankur Bhatia, Saloni Jaju, Suvrat Bhooshan, Mitesh M. Khapra,
- Abstract要約: MUSHRAテストは、TSシステムの評価を同時に行うための有望な代替手段である。
人間の参照音声の一致への依存は、現代のTSシステムのスコアを不当に考慮していることを示す。
MUSHRAテストの2つの改良版を提案する。
- 参考スコア(独自算出の注目度): 12.954531089716008
- License:
- Abstract: Despite rapid advancements in TTS models, a consistent and robust human evaluation framework is still lacking. For example, MOS tests fail to differentiate between similar models, and CMOS's pairwise comparisons are time-intensive. The MUSHRA test is a promising alternative for evaluating multiple TTS systems simultaneously, but in this work we show that its reliance on matching human reference speech unduly penalises the scores of modern TTS systems that can exceed human speech quality. More specifically, we conduct a comprehensive assessment of the MUSHRA test, focusing on its sensitivity to factors such as rater variability, listener fatigue, and reference bias. Based on our extensive evaluation involving 492 human listeners across Hindi and Tamil we identify two primary shortcomings: (i) reference-matching bias, where raters are unduly influenced by the human reference, and (ii) judgement ambiguity, arising from a lack of clear fine-grained guidelines. To address these issues, we propose two refined variants of the MUSHRA test. The first variant enables fairer ratings for synthesized samples that surpass human reference quality. The second variant reduces ambiguity, as indicated by the relatively lower variance across raters. By combining these approaches, we achieve both more reliable and more fine-grained assessments. We also release MANGO, a massive dataset of 246,000 human ratings, the first-of-its-kind collection for Indian languages, aiding in analyzing human preferences and developing automatic metrics for evaluating TTS systems.
- Abstract(参考訳): TTSモデルの急速な進歩にもかかわらず、一貫性のある堅牢な人的評価フレームワークはいまだに不足している。
例えば、MOSテストは類似したモデルの区別に失敗し、CMOSのペアワイズ比較は時間集約的である。
MUSHRAテストは,複数のTTSシステムを同時に評価する上で,有望な代替手段である。
具体的には,MUSHRAテストの総合評価を行い,レーダ変動,リスナ疲労,基準バイアスなどの要因に対する感度に着目した。
ヒンディー語とタミル語にまたがる492人の聴取者の広範な評価に基づき、主な欠点を2つ挙げる。
(i)基準適合バイアス、ヒト基準の影響を受けないラッカー
(二 明確なきめ細かいガイドラインの欠如から生じる曖昧さを判断すること。
これらの問題に対処するため、MUSHRAテストの2つの改良版を提案する。
最初の変種は、人間の基準品質を超える合成サンプルに対するより公平な評価を可能にする。
第2の変種は、ラッカー間の比較的低い分散によって示されるように、曖昧さを減少させる。
これらのアプローチを組み合わせることで、より信頼性が高く、よりきめ細かな評価が可能になる。
また、人格評価24万6000の大規模なデータセットであるMANGOをリリースし、人間の嗜好を分析し、TTSシステムを評価するための自動メトリクスの開発を支援した。
関連論文リスト
- Beyond Oversmoothing: Evaluating DDPM and MSE for Scalable Speech Synthesis in ASR [13.307889110301502]
ASRモデルのトレーニングに使用する場合, DPM(Denoising Diffusion Probabilistic Models)とTSのMean Squared Error(MSE)ベースのモデルを比較した。
与えられたモデルサイズに対して、DDPMはMSEモデルよりも多くのデータとより多様な話者の集合をうまく利用することができる。
実話と合成音声のWERの比率(1.46)は最も高いが,大きなギャップが残っていることも確認できた。
論文 参考訳(メタデータ) (2024-10-16T06:35:56Z) - Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback [39.54647336161013]
テキスト音声(TTS)最適化に適したサンプリングアノテート学習フレームワークを提案する。
MOS, 単語誤り率, 話者類似度の観点から, UNO は TTS モデルのゼロショット性能を大幅に向上することを示した。
また、感情的TTSにおいて、所望の話し方にシームレスかつ柔軟に対応できるUNOの顕著な能力を示す。
論文 参考訳(メタデータ) (2024-06-02T07:54:33Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Predicting pairwise preferences between TTS audio stimuli using parallel
ratings data and anti-symmetric twin neural networks [24.331098975217596]
本稿では, 対の波形とそれに対応する選好スコアに基づいて学習した, 反対称双対ニューラルネットワークに基づくモデルを提案する。
大規模なトレーニングセットを得るために,MUSHRAテストから聴取者の評価を,ペア内の刺激が他よりも高く評価された頻度を反映した値に変換する。
MOSスコアの予測を訓練した最先端モデルと比較した。
論文 参考訳(メタデータ) (2022-09-22T13:34:22Z) - Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文 参考訳(メタデータ) (2021-07-05T17:58:52Z) - SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption
Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。
これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。
提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文 参考訳(メタデータ) (2021-06-02T19:58:20Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。