論文の概要: Low-resource expressive text-to-speech using data augmentation
- arxiv url: http://arxiv.org/abs/2011.05707v2
- Date: Tue, 1 Jun 2021 20:18:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 00:42:40.686569
- Title: Low-resource expressive text-to-speech using data augmentation
- Title(参考訳): データ拡張を用いた低リソース表現型音声合成
- Authors: Goeric Huybrechts, Thomas Merritt, Giulia Comini, Bartek Perz, Raahil
Shah, Jaime Lorenzo-Trueba
- Abstract要約: 本稿では,大量のターゲットデータを記録するコストのかかる操作を回避するために,新しい3段階の手法を提案する。
我々は、他の話者からの所望の話し方での録音を活用することで、音声変換によるデータ拡張を行う。
次に、利用可能な録音の上に合成データを使って、TSモデルをトレーニングします。
- 参考スコア(独自算出の注目度): 12.396086122947679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent neural text-to-speech (TTS) systems perform remarkably well,
they typically require a substantial amount of recordings from the target
speaker reading in the desired speaking style. In this work, we present a novel
3-step methodology to circumvent the costly operation of recording large
amounts of target data in order to build expressive style voices with as little
as 15 minutes of such recordings. First, we augment data via voice conversion
by leveraging recordings in the desired speaking style from other speakers.
Next, we use that synthetic data on top of the available recordings to train a
TTS model. Finally, we fine-tune that model to further increase quality. Our
evaluations show that the proposed changes bring significant improvements over
non-augmented models across many perceived aspects of synthesised speech. We
demonstrate the proposed approach on 2 styles (newscaster and conversational),
on various speakers, and on both single and multi-speaker models, illustrating
the robustness of our approach.
- Abstract(参考訳): 最近のneural text-to-speech (tts)システムは、非常によく機能するが、通常、目的とする話者からの所望の発話スタイルでのかなりの録音を必要とする。
本研究では,このような録音を15分以内で表現型音声を構築するために,大量のターゲットデータを記録するコストのかかる作業を回避するために,新しい3段階の手法を提案する。
まず、他の話者から希望する発話スタイルでの録音を利用して、音声変換によるデータ拡張を行う。
次に、利用可能な録音の上に合成データを使って、TSモデルをトレーニングします。
最後に、このモデルを微調整して、さらに品質を高めます。
評価の結果,提案した変化は,合成音声の多くの側面において,非拡張モデルに対して大きな改善をもたらすことが示された。
提案手法は2つのスタイル(新しい話者と会話型)、様々な話者、および単一話者モデルとマルチ話者モデルにおいて、我々のアプローチの堅牢性を示す。
関連論文リスト
- Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。
これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。
この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文 参考訳(メタデータ) (2024-07-02T03:22:41Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource
Highly Expressive Speech [5.521191428642322]
本稿では、ターゲット話者から15分間の音声データを用いて、高い表現力を持つTTS音声を構築する方法を提案する。
現在の最先端アプローチと比較して,提案手法は音声の自然性に対して23.3%向上し,録音とのギャップを埋めることができた。
論文 参考訳(メタデータ) (2021-06-24T10:52:10Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。
実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-26T06:14:06Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。