Fugu-MT 論文翻訳(概要): Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation

論文の概要: Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation

arxiv url: http://arxiv.org/abs/2411.12719v1
Date: Tue, 19 Nov 2024 18:37:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.206421
Title: Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation
Title（参考訳）: MUSHRAの再考 : テキスト・音声評価における現代的課題への取り組み
Authors: Praveen Srinivasa Varadhan, Amogh Gulati, Ashwin Sankar, Srija Anand, Anirudh Gupta, Anirudh Mukherjee, Shiva Kumar Marepally, Ankur Bhatia, Saloni Jaju, Suvrat Bhooshan, Mitesh M. Khapra,
Abstract要約: MUSHRAテストは、TSシステムの評価を同時に行うための有望な代替手段である。人間の参照音声の一致への依存は、現代のTSシステムのスコアを不当に考慮していることを示す。 MUSHRAテストの2つの改良版を提案する。
参考スコア（独自算出の注目度）: 12.954531089716008
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite rapid advancements in TTS models, a consistent and robust human evaluation framework is still lacking. For example, MOS tests fail to differentiate between similar models, and CMOS's pairwise comparisons are time-intensive. The MUSHRA test is a promising alternative for evaluating multiple TTS systems simultaneously, but in this work we show that its reliance on matching human reference speech unduly penalises the scores of modern TTS systems that can exceed human speech quality. More specifically, we conduct a comprehensive assessment of the MUSHRA test, focusing on its sensitivity to factors such as rater variability, listener fatigue, and reference bias. Based on our extensive evaluation involving 471 human listeners across Hindi and Tamil we identify two primary shortcomings: (i) reference-matching bias, where raters are unduly influenced by the human reference, and (ii) judgement ambiguity, arising from a lack of clear fine-grained guidelines. To address these issues, we propose two refined variants of the MUSHRA test. The first variant enables fairer ratings for synthesized samples that surpass human reference quality. The second variant reduces ambiguity, as indicated by the relatively lower variance across raters. By combining these approaches, we achieve both more reliable and more fine-grained assessments. We also release MANGO, a massive dataset of 47,100 human ratings, the first-of-its-kind collection for Indian languages, aiding in analyzing human preferences and developing automatic metrics for evaluating TTS systems.
Abstract（参考訳）: TTSモデルの急速な進歩にもかかわらず、一貫性のある堅牢な人的評価フレームワークはいまだに不足している。例えば、MOSテストは類似したモデルの区別に失敗し、CMOSのペアワイズ比較は時間集約的である。 MUSHRAテストは,複数のTTSシステムを同時に評価する上で,有望な代替手段である。具体的には,MUSHRAテストの総合評価を行い,レーダ変動,リスナ疲労,基準バイアスなどの要因に対する感度に着目した。ヒンディー語とタミル語にまたがる471人の聴取者の広範な評価に基づき、主な欠点を2つ挙げる。 (i)基準適合バイアス、ヒト基準の影響を受けないラッカー (二明確なきめ細かいガイドラインの欠如から生じる曖昧さを判断すること。これらの問題に対処するため、MUSHRAテストの2つの改良版を提案する。最初の変種は、人間の基準品質を超える合成サンプルに対するより公平な評価を可能にする。第2の変種は、ラッカー間の比較的低い分散によって示されるように、曖昧さを減少させる。これらのアプローチを組み合わせることで、より信頼性が高く、よりきめ細かな評価が可能になる。また、人格評価47,100件の大規模なデータセットであるMANGOをリリースし、人間の嗜好を分析し、TTSシステムを評価するための自動メトリクスの開発を支援した。

関連論文リスト

Understanding Frechet Speech Distance for Synthetic Speech Quality Evaluation [3.549112490210998]
FSD(Frechet Speech Distance)とSMMD(Speech Mean Discrepancy)を多種多様な埋め込み条件下で総合的に評価した。 FSDとSMMDは相補的・費用効率・再現性のある尺度であり,特に大規模・直接聴取評価が不可能な場合に有効であることを示す。
論文参考訳（メタデータ） (2026-01-29T08:20:52Z)
From Scores to Preferences: Redefining MOS Benchmarking for Speech Quality Reward Modeling [66.22134521383909]
我々は、多様なMOSデータセットを優先順位比較設定に再構成する統一ベンチマークを導入する。 MOS-RMBenchを基盤として,報酬モデルのための3つのパラダイムを体系的に構築・評価する。実験の結果,(1)スカラーモデルが最も高い総合的性能を達成し,その精度は74%を超え,(2)ほとんどのモデルでは,人間の音声よりもはるかに悪く,(3)MOSの差が非常に小さいペアで苦戦している,という結果が得られた。実験結果から, MOS 対応 GRM は細粒度品質の識別を著しく改善し, 最も困難な場合においてスカラーモデルとのギャップを狭めることが明らかとなった。
論文参考訳（メタデータ） (2025-10-01T10:27:51Z)
The State Of TTS: A Case Study with Human Fooling Rates [17.046410804692332]
本稿では,機械生成音声の誤り頻度を測定する指標であるHuman Fooling Rate(HFR)を紹介する。オープンソースおよび商用TSモデルを大規模に評価した結果,重要な知見が得られた。
論文参考訳（メタデータ） (2025-08-06T08:04:21Z)
T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文参考訳（メタデータ） (2025-05-23T13:44:59Z)
Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese [36.208204572097046]
我々は,多次元中国語コーパスデータセットATT-Corpusとチューリングテストにインスパイアされた評価プロトコルの組み合わせであるAudio Turing Test (ATT)を紹介する。 ATTは評価者に声が人間に聞こえるかどうかを判断するよう依頼する。また、自動評価のためのオートATTとして、人間の判断データを用いたQwen2-Audio-Instructを微調整する。
論文参考訳（メタデータ） (2025-05-16T12:57:23Z)
Automatically Generating Chinese Homophone Words to Probe Machine Translation Estimation Systems [6.213698466889738]
そこで我々は,感情に関連する中国語のホモホン語に挑戦する情報理論に触発された新しい手法を提案する。本手法は,感情保存における翻訳誤りの原因となるホモフォンを生成し,機械翻訳システムにおける脆弱性を明らかにする。提案手法の有効性を人体評価を用いて評価し,既存のものと比較した。
論文参考訳（メタデータ） (2025-03-20T13:56:15Z)
HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
Beyond Oversmoothing: Evaluating DDPM and MSE for Scalable Speech Synthesis in ASR [13.307889110301502]
ASRモデルのトレーニングに使用する場合, DPM(Denoising Diffusion Probabilistic Models)とTSのMean Squared Error(MSE)ベースのモデルを比較した。与えられたモデルサイズに対して、DDPMはMSEモデルよりも多くのデータとより多様な話者の集合をうまく利用することができる。実話と合成音声のWERの比率(1.46)は最も高いが,大きなギャップが残っていることも確認できた。
論文参考訳（メタデータ） (2024-10-16T06:35:56Z)
Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文参考訳（メタデータ） (2024-10-03T03:08:29Z)
Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback [39.54647336161013]
テキスト音声(TTS)最適化に適したサンプリングアノテート学習フレームワークを提案する。 MOS, 単語誤り率, 話者類似度の観点から, UNO は TTS モデルのゼロショット性能を大幅に向上することを示した。また、感情的TTSにおいて、所望の話し方にシームレスかつ柔軟に対応できるUNOの顕著な能力を示す。
論文参考訳（メタデータ） (2024-06-02T07:54:33Z)
MT-Ranker: Reference-free machine translation evaluation by inter-system ranking [14.188948302661933]
WMT Shared Metrics Task benchmarks DARR20, MQM20, MQM21。 MT-Rankerは、参照なしおよび参照ベースラインに対する最先端のマークである。
論文参考訳（メタデータ） (2024-01-30T15:30:03Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Predicting pairwise preferences between TTS audio stimuli using parallel ratings data and anti-symmetric twin neural networks [24.331098975217596]
本稿では, 対の波形とそれに対応する選好スコアに基づいて学習した, 反対称双対ニューラルネットワークに基づくモデルを提案する。大規模なトレーニングセットを得るために,MUSHRAテストから聴取者の評価を,ペア内の刺激が他よりも高く評価された頻度を反映した値に変換する。 MOSスコアの予測を訓練した最先端モデルと比較した。
論文参考訳（メタデータ） (2022-09-22T13:34:22Z)
Is Automated Topic Model Evaluation Broken?: The Incoherence of Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文参考訳（メタデータ） (2021-07-05T17:58:52Z)
SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis [20.026835809227283]
情報理論に根ざした評価の新しい定式化である「定型性」を導入する。これらの分割された意味論と流布の次元が、キャプタの違いに関するシステムレベルの洞察をいかに与えているかを示す。提案手法とそれらの組み合わせであるSMURFは,他のルールベース評価指標と比較した場合,人間の判断と最先端の相関が得られた。
論文参考訳（メタデータ） (2021-06-02T19:58:20Z)
Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。 QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文参考訳（メタデータ） (2021-06-01T14:11:17Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。