論文の概要: TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems
- arxiv url: http://arxiv.org/abs/2506.19441v1
- Date: Tue, 24 Jun 2025 09:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.565543
- Title: TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems
- Title(参考訳): TTSDS2:人間の品質テキストを音声システムに評価するためのリソースとベンチマーク
- Authors: Christoph Minixhofer, Ondrej Klejch, Peter Bell,
- Abstract要約: TTSDS のより堅牢で改良されたバージョンである Text to Speech Distribution Score 2 (TTSDS2) を紹介する。
TTSDS2は、各ドメインの0.50以上のスピアマン相関と、評価された主観的スコアと相関する16の指標のうち、唯一のものである。
11,000以上の主観的評価スコアを持つデータセット、データ漏洩を避けるために多言語テストデータセットを継続的に再現するためのパイプライン。
- 参考スコア(独自算出の注目度): 13.307889110301502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation of Text to Speech (TTS) systems is challenging and resource-intensive. Subjective metrics such as Mean Opinion Score (MOS) are not easily comparable between works. Objective metrics are frequently used, but rarely validated against subjective ones. Both kinds of metrics are challenged by recent TTS systems capable of producing synthetic speech indistinguishable from real speech. In this work, we introduce Text to Speech Distribution Score 2 (TTSDS2), a more robust and improved version of TTSDS. Across a range of domains and languages, it is the only one out of 16 compared metrics to correlate with a Spearman correlation above 0.50 for every domain and subjective score evaluated. We also release a range of resources for evaluating synthetic speech close to real speech: A dataset with over 11,000 subjective opinion score ratings; a pipeline for continually recreating a multilingual test dataset to avoid data leakage; and a continually updated benchmark for TTS in 14 languages.
- Abstract(参考訳): テキスト・トゥ・スポーティング(TTS)システムの評価は困難で資源集約的である。
MOS(Mean Opinion Score)のような主観的メトリクスは、作業間で簡単に比較できない。
客観的メトリクスは頻繁に使用されるが、主観的メトリクスに対して検証されることは滅多にない。
どちらの指標も、現実の音声と区別できない合成音声を生成できる最近のTSシステムによって挑戦されている。
本研究では,より堅牢で改良されたTTSDSであるText to Speech Distribution Score 2(TTSDS2)を紹介する。
様々なドメインや言語において、各ドメインの0.50以上のスピアマン相関と評価された主観的スコアと相関する指標は16つ中1つしかない。
11,000以上の主観的評価スコアを持つデータセット、データ漏洩を避けるために多言語テストデータセットを継続的に再現するためのパイプライン、14言語でTSのベンチマークを継続的に更新する。
関連論文リスト
- Synth4Kws: Synthesized Speech for User Defined Keyword Spotting in Low Resource Environments [8.103855990028842]
テキスト・トゥ・スピーチ(TTS)合成データをカスタムKWSに活用するフレームワークであるSynth4Kwsを紹介する。
TTSフレーズの多様性が増大し,発話サンプリングが単調にモデル性能を向上することがわかった。
我々の実験は英語と単一単語の発話に基づいているが、この結果はi18n言語に一般化されている。
論文 参考訳(メタデータ) (2024-07-23T21:05:44Z) - TTSDS -- Text-to-Speech Distribution Score [9.380879437204277]
最近発表されたText-to-Speech (TTS) システムは、実際の音声に近い音声を生成する。
本稿では,韻律,話者識別,知性といった複数の要因を組み合わせた合成音声の質を評価することを提案する。
2008年から2024年にかけて開発された35のTTSシステムをベンチマークし, 評価値の非重み付き平均値として計算した結果が人体評価と強く相関していることを示した。
論文 参考訳(メタデータ) (2024-07-17T16:30:27Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文 参考訳(メタデータ) (2022-08-17T03:26:23Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。