論文の概要: EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge
- arxiv url: http://arxiv.org/abs/2505.23009v1
- Date: Thu, 29 May 2025 02:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.62955
- Title: EmergentTTS-Eval: Evaluating TTS Models on Complex Prosodic, Expressiveness, and Linguistic Challenges Using Model-as-a-Judge
- Title(参考訳): 創発的TTS-Eval:モデル・アズ・ア・ジャッジを用いた複雑な韻律・表現性・言語的課題におけるTSSモデルの評価
- Authors: Ruskin Raj Manku, Yuzhi Tang, Xingjian Shi, Mu Li, Alex Smola,
- Abstract要約: 我々は6つのTSシナリオをカバーする包括的なベンチマークである$textitEmergentTTS-Evalを紹介した。
我々のフレームワークはテストケースの生成と評価の両方を自動化するので、ベンチマークが容易にアクセスできます。
我々は、EmergentTTS-Eval上で、11Labs、Deepgram、OpenAIの4o-mini-TTSといった最先端のオープンソースおよびプロプライエタリなTSシステムを評価した。
- 参考スコア(独自算出の注目度): 25.51206687438354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Speech (TTS) benchmarks often fail to capture how well models handle nuanced and semantically complex text. Building on $\textit{EmergentTTS}$, we introduce $\textit{EmergentTTS-Eval}$, a comprehensive benchmark covering six challenging TTS scenarios: emotions, paralinguistics, foreign words, syntactic complexity, complex pronunciation (e.g. URLs, formulas), and questions. Crucially, our framework automates both test-case generation and evaluation, making the benchmark easily extensible. Starting from a small set of human-written seed prompts, we iteratively extend them using LLMs to target specific structural, phonetic and prosodic challenges, resulting in 1,645 diverse test cases. Moreover, we employ a model-as-a-judge approach, using a Large Audio Language Model (LALM) to assess the speech across multiple dimensions such as expressed emotion, prosodic, intonational, and pronunciation accuracy. We evaluate state-of-the-art open-source and proprietary TTS systems, such as 11Labs, Deepgram, and OpenAI's 4o-mini-TTS, on EmergentTTS-Eval, demonstrating its ability to reveal fine-grained performance differences. Results show that the model-as-a-judge approach offers robust TTS assessment and a high correlation with human preferences. We open source the evaluation $\href{https://github.com/boson-ai/EmergentTTS-Eval-public}{code}$ and the $\href{https://huggingface.co/datasets/bosonai/EmergentTTS-Eval}{dataset}$.
- Abstract(参考訳): Text-to-Speech (TTS)ベンチマークは、モデルがニュアンスとセマンティックに複雑なテキストをどのように処理するかをキャプチャするのに失敗することが多い。
$\textit{EmergentTTS}$の上に、感情、パラ言語学、外国語、構文複雑性、複雑な発音(URL、式、質問など)の6つのTSシナリオをカバーする包括的なベンチマークである、$\textit{EmergentTTS-Eval}$を導入します。
重要なことは、我々のフレームワークはテストケースの生成と評価の両方を自動化するので、ベンチマークを簡単に拡張できます。
人間の手書きのシードプロンプトの小さなセットから始めて、LLMを使って反復的に拡張して、特定の構造的、音声的、韻律的課題をターゲットにし、1,645の多様なテストケースを生み出した。
さらに,Large Audio Language Model (LALM) を用いたモデル・アズ・ア・ジャッジ・アプローチを用いて,表現された感情,韻律,非国語,発音精度などの複数の次元にわたる音声を評価する。
我々は、EmergentTTS-Evalで11Labs、Deepgram、OpenAIの4o-mini-TTSといった最先端のオープンソースおよびプロプライエタリなTSシステムを評価し、粒度の細かいパフォーマンスの違いを明らかにする能力を示した。
その結果, モデル・アズ・ア・ジャッジ・アプローチは, 頑健なTTS評価と, 人間の嗜好との相関性が高いことがわかった。
評価は$\href{https://github.com/boson-ai/EmergentTTS-Eval-public}{code}$と$\href{https://huggingface.co/datasets/bosonai/EmergentTTS-Eval}{dataset}$をオープンソースにしています。
関連論文リスト
- Audio Turing Test: Benchmarking the Human-likeness of Large Language Model-based Text-to-Speech Systems in Chinese [36.208204572097046]
我々は,多次元中国語コーパスデータセットATT-Corpusとチューリングテストにインスパイアされた評価プロトコルの組み合わせであるAudio Turing Test (ATT)を紹介する。
ATTは評価者に声が人間に聞こえるかどうかを判断するよう依頼する。
また、自動評価のためのオートATTとして、人間の判断データを用いたQwen2-Audio-Instructを微調整する。
論文 参考訳(メタデータ) (2025-05-16T12:57:23Z) - Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens [31.575335190916995]
本稿では,音声を2つの補完トークンタイプに分解する単一ストリーム音声であるBiCodecを利用した新しいシステムであるSpark-TTSを紹介する。
制御可能なTSの研究を容易にするために,包括的な属性アノテーションを備えた10000時間データセットであるVoxBoxを紹介した。
論文 参考訳(メタデータ) (2025-03-03T16:23:10Z) - Hard-Synth: Synthesizing Diverse Hard Samples for ASR using Zero-Shot TTS and LLM [48.71951982716363]
テキスト音声合成(TTS)モデルは自動音声認識(ASR)システムを強化するために広く採用されている。
我々は,大規模言語モデル(LLM)と高度なゼロショットTSを利用する新しいASRデータ拡張手法であるHard-Synthを提案する。
我々のアプローチでは、追加のテキストデータに頼ることなく、書き直しによる多様なドメイン内テキストを生成するためにLLMを用いる。
論文 参考訳(メタデータ) (2024-11-20T09:49:37Z) - RALL-E: Robust Codec Language Modeling with Chain-of-Thought Prompting for Text-to-Speech Synthesis [84.57932472551889]
RALL-Eは、音声合成のための堅牢な言語モデリング手法である。
RALL-Eは、ゼロショットTSのWERを、それぞれ5.6%$(リランクなし)から2.5%$と1.0%$に改善した。
論文 参考訳(メタデータ) (2024-04-04T05:15:07Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。