論文の概要: Evaluating and reducing the distance between synthetic and real speech
distributions
- arxiv url: http://arxiv.org/abs/2211.16049v1
- Date: Tue, 29 Nov 2022 09:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 15:29:39.439473
- Title: Evaluating and reducing the distance between synthetic and real speech
distributions
- Title(参考訳): 合成音声と実音声間の距離の評価と低減
- Authors: Christoph Minixhofer, Ond\v{r}ej Klejch, Peter Bell
- Abstract要約: 音響環境の次元に沿った実・合成音声分布の距離を評価する。
次元の改善は、音声認識を用いて近似した全分布距離の削減に繋がる。
- 参考スコア(独自算出の注目度): 8.908425534666353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While modern Text-to-Speech (TTS) systems can produce speech rated highly in
terms of subjective evaluation, the distance between real and synthetic speech
distributions remains understudied, where we use the term \textit{distribution}
to mean the sample space of all possible real speech recordings from a given
set of speakers; or of the synthetic samples that could be generated for the
same set of speakers. We evaluate the distance of real and synthetic speech
distributions along the dimensions of the acoustic environment, speaker
characteristics and prosody using a range of speech processing measures and the
respective Wasserstein distances of their distributions. We reduce these
distribution distances along said dimensions by providing utterance-level
information derived from the measures to the model and show they can be
generated at inference time. The improvements to the dimensions translate to
overall distribution distance reduction approximated using Automatic Speech
Recognition (ASR) by evaluating the fitness of the synthetic data as training
data.
- Abstract(参考訳): 現代のtts(text-to-speech)システムは、主観的評価の観点から高い評価を受けた音声を生成することができるが、実際の音声分布と合成音声分布との間の距離は未検討のままであり、ここでは、与えられた話者のセットから可能な全ての実音声記録のサンプル空間、または同じ話者のセットで生成された合成音声のサンプル空間を「\textit{distribution}」という用語を用いる。
本研究では, 音響環境, 話者特性, 韻律の次元における実音声分布と合成音声分布の距離を, 各種音声処理法および各分布のwasserstein距離を用いて評価する。
我々は,これらの分布距離を,その測度から得られた発話レベル情報をモデルに提供することにより削減し,推論時に生成可能であることを示す。
これらの次元の改善は、合成データの適合度をトレーニングデータとして評価することにより、ASR(Automatic Speech Recognition)を用いて近似した全体の分布距離削減に寄与する。
関連論文リスト
- Sample-Efficient Diffusion for Text-To-Speech Synthesis [31.372486998377966]
U-Audio Transformer (U-AT)と呼ばれる新しい拡散アーキテクチャに基づいている。
SESDは1k時間未満の音声のトレーニングにもかかわらず、印象的な結果が得られる。
2%未満のトレーニングデータを使用しながら、最先端の自己回帰モデルであるVALL-Eよりも知的な音声を合成する。
論文 参考訳(メタデータ) (2024-09-01T20:34:36Z) - TTSDS -- Text-to-Speech Distribution Score [9.380879437204277]
最近発表されたText-to-Speech (TTS) システムは、実際の音声に近い音声を生成する。
本稿では,韻律,話者識別,知性といった複数の要因を組み合わせた合成音声の質を評価することを提案する。
2008年から2024年にかけて開発された35のTTSシステムをベンチマークし, 評価値の非重み付き平均値として計算した結果が人体評価と強く相関していることを示した。
論文 参考訳(メタデータ) (2024-07-17T16:30:27Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Cross-Utterance Conditioned VAE for Non-Autoregressive Text-to-Speech [27.84124625934247]
各音素に対する潜在韻律特徴の後方確率分布を推定するために,発話条件付きVAEを提案する。
CUC-VAEは、発話情報に基づいて、発話固有の事前分布からサンプリングすることができる。
LJ-Speech と LibriTTS のデータによる実験結果から,提案した CUC-VAE TTS システムは自然性や韻律の多様性を向上することが示された。
論文 参考訳(メタデータ) (2022-05-09T08:39:53Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。