論文の概要: Comparison of Speech Representations for Automatic Quality Estimation in
Multi-Speaker Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2002.12645v2
- Date: Mon, 27 Apr 2020 09:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 01:47:20.295738
- Title: Comparison of Speech Representations for Automatic Quality Estimation in
Multi-Speaker Text-to-Speech Synthesis
- Title(参考訳): 複数話者音声合成における品質自動推定のための音声表現の比較
- Authors: Jennifer Williams, Joanna Rownicka, Pilar Oplustil, Simon King
- Abstract要約: 本研究の目的は,多話者テキスト音声合成の出力品質に異なる話者がどう貢献するかを特徴付けることである。
我々は、人間の平均評価スコア(MOS)に基づいてトレーニングされたニューラルネットワーク(NN)を使用して、TSの品質を自動的に評価する。
- 参考スコア(独自算出の注目度): 21.904558308567122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to characterize how different speakers contribute to the perceived
output quality of multi-speaker Text-to-Speech (TTS) synthesis. We
automatically rate the quality of TTS using a neural network (NN) trained on
human mean opinion score (MOS) ratings. First, we train and evaluate our NN
model on 13 different TTS and voice conversion (VC) systems from the ASVSpoof
2019 Logical Access (LA) Dataset. Since it is not known how best to represent
speech for this task, we compare 8 different representations alongside MOSNet
frame-based features. Our representations include image-based spectrogram
features and x-vector embeddings that explicitly model different types of noise
such as T60 reverberation time. Our NN predicts MOS with a high correlation to
human judgments. We report prediction correlation and error. A key finding is
the quality achieved for certain speakers seems consistent, regardless of the
TTS or VC system. It is widely accepted that some speakers give higher quality
than others for building a TTS system: our method provides an automatic way to
identify such speakers. Finally, to see if our quality prediction models
generalize, we predict quality scores for synthetic speech using a separate
multi-speaker TTS system that was trained on LibriTTS data, and conduct our own
MOS listening test to compare human ratings with our NN predictions.
- Abstract(参考訳): 本研究の目的は,多話者テキスト音声合成(TTS)の出力品質に異なる話者がどう寄与するかを特徴付けることである。
ヒト平均世論スコア(mos)で訓練されたニューラルネットワーク(nn)を用いて、ttsの品質を自動的に評価する。
まず、ASVSpoof 2019 Logical Access (LA) Datasetから、13の異なるTSおよび音声変換(VC)システム上でNNモデルをトレーニングし、評価する。
このタスクにおける音声表現の最適性は分かっていないため、mosnetのフレームベースの機能と合わせて8種類の表現を比較した。
我々の表現には、画像ベースのスペクトログラム機能や、T60残響時間などの異なる種類のノイズを明示的にモデル化するxベクトル埋め込みが含まれる。
我々のNNは、人間の判断と高い相関でMOSを予測する。
予測相関と誤差を報告する。
重要な発見は、TSやVCシステムに関係なく、特定の話者が達成した品質は一貫性があるように見えることだ。
提案手法は,TTSシステムを構築する上で,他の話者よりも高品質な話者がいることが広く受け入れられている。
最後に、我々の品質予測モデルが一般化されるかどうかを確認するために、LibriTTSデータに基づいてトレーニングされた別個のマルチスピーカTSシステムを用いて合成音声の品質スコアを予測し、我々のMOSリスニングテストを実施し、人間のレーティングとNN予測を比較した。
関連論文リスト
- TTSDS -- Text-to-Speech Distribution Score [9.380879437204277]
最近発表されたText-to-Speech (TTS) システムは、実際の音声に近い音声を生成する。
本稿では,韻律,話者識別,知性といった複数の要因を組み合わせた合成音声の質を評価することを提案する。
2008年から2024年にかけて開発された35のTTSシステムをベンチマークし, 評価値の非重み付き平均値として計算した結果が人体評価と強く相関していることを示した。
論文 参考訳(メタデータ) (2024-07-17T16:30:27Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。