論文の概要: The State Of TTS: A Case Study with Human Fooling Rates
- arxiv url: http://arxiv.org/abs/2508.04179v1
- Date: Wed, 06 Aug 2025 08:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.612093
- Title: The State Of TTS: A Case Study with Human Fooling Rates
- Title(参考訳): TTSの現状:ヒト摂食率のケーススタディ
- Authors: Praveen Srinivasa Varadhan, Sherry Thomas, Sai Teja M. S., Suvrat Bhooshan, Mitesh M. Khapra,
- Abstract要約: 本稿では,機械生成音声の誤り頻度を測定する指標であるHuman Fooling Rate(HFR)を紹介する。
オープンソースおよび商用TSモデルを大規模に評価した結果,重要な知見が得られた。
- 参考スコア(独自算出の注目度): 17.046410804692332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While subjective evaluations in recent years indicate rapid progress in TTS, can current TTS systems truly pass a human deception test in a Turing-like evaluation? We introduce Human Fooling Rate (HFR), a metric that directly measures how often machine-generated speech is mistaken for human. Our large-scale evaluation of open-source and commercial TTS models reveals critical insights: (i) CMOS-based claims of human parity often fail under deception testing, (ii) TTS progress should be benchmarked on datasets where human speech achieves high HFRs, as evaluating against monotonous or less expressive reference samples sets a low bar, (iii) Commercial models approach human deception in zero-shot settings, while open-source systems still struggle with natural conversational speech; (iv) Fine-tuning on high-quality data improves realism but does not fully bridge the gap. Our findings underscore the need for more realistic, human-centric evaluations alongside existing subjective tests.
- Abstract(参考訳): 近年の主観評価は、TSの急速な進歩を示しているが、現在のTSシステムは、チューリングのような評価において、真に人間の騙しテストに合格できるだろうか?
HFR(Human Fooling Rate)は,機械による発話の誤りの頻度を直接測定する指標である。
オープンソースおよび商用TTSモデルの大規模評価は、重要な洞察を示します。
(i)人間のパリティのCMOSベースのクレームは、騙しテストでしばしば失敗する。
(ii)TTSの進歩は、ヒトの発話が高いHFRを達成するデータセット上でベンチマークされるべきであり、単調または表現力の低い参照サンプルに対する評価は低いバーを設定すべきである。
三 商業モデルは、ゼロショット設定において人間の欺きに近づき、一方、オープンソースシステムは、まだ自然な会話音声に苦慮している。
(4)高品質なデータの微調整により現実性は向上するが、ギャップを完全に埋めることはできない。
以上の結果から,既存の主観的テストと並行して,より現実的で人間中心的な評価の必要性が浮き彫りになった。
関連論文リスト
- Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese [36.208204572097046]
我々は,多次元中国語コーパスデータセットATT-Corpusとチューリングテストにインスパイアされた評価プロトコルの組み合わせであるAudio Turing Test (ATT)を紹介する。
ATTは評価者に声が人間に聞こえるかどうかを判断するよう依頼する。
また、自動評価のためのオートATTとして、人間の判断データを用いたQwen2-Audio-Instructを微調整する。
論文 参考訳(メタデータ) (2025-05-16T12:57:23Z) - Rethinking MUSHRA: Addressing Modern Challenges in Text-to-Speech Evaluation [12.954531089716008]
MUSHRAテストは、TSシステムの評価を同時に行うための有望な代替手段である。
人間の参照音声の一致への依存は、現代のTSシステムのスコアを不当に考慮していることを示す。
MUSHRAテストの2つの改良版を提案する。
論文 参考訳(メタデータ) (2024-11-19T18:37:45Z) - Beyond Oversmoothing: Evaluating DDPM and MSE for Scalable Speech Synthesis in ASR [13.307889110301502]
ASRモデルのトレーニングに使用する場合, DPM(Denoising Diffusion Probabilistic Models)とTSのMean Squared Error(MSE)ベースのモデルを比較した。
与えられたモデルサイズに対して、DDPMはMSEモデルよりも多くのデータとより多様な話者の集合をうまく利用することができる。
実話と合成音声のWERの比率(1.46)は最も高いが,大きなギャップが残っていることも確認できた。
論文 参考訳(メタデータ) (2024-10-16T06:35:56Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback [39.54647336161013]
テキスト音声(TTS)最適化に適したサンプリングアノテート学習フレームワークを提案する。
MOS, 単語誤り率, 話者類似度の観点から, UNO は TTS モデルのゼロショット性能を大幅に向上することを示した。
また、感情的TTSにおいて、所望の話し方にシームレスかつ柔軟に対応できるUNOの顕著な能力を示す。
論文 参考訳(メタデータ) (2024-06-02T07:54:33Z) - Beyond human subjectivity and error: a novel AI grading system [67.410870290301]
オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。
AI技術の最近のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。
本稿では,新しい自動短解階調システム(ASAG)を提案する。
論文 参考訳(メタデータ) (2024-05-07T13:49:59Z) - A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。