論文の概要: Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource
Highly Expressive Speech
- arxiv url: http://arxiv.org/abs/2106.12896v2
- Date: Fri, 25 Jun 2021 18:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 11:11:06.337649
- Title: Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource
Highly Expressive Speech
- Title(参考訳): 低リソース高表現性音声のための明示的持続時間モデルを用いた非自己回帰tt
- Authors: Raahil Shah, Kamil Pokora, Abdelhamid Ezzerg, Viacheslav Klimkov,
Goeric Huybrechts, Bartosz Putrycz, Daniel Korzekwa, Thomas Merritt
- Abstract要約: 本稿では、ターゲット話者から15分間の音声データを用いて、高い表現力を持つTTS音声を構築する方法を提案する。
現在の最先端アプローチと比較して,提案手法は音声の自然性に対して23.3%向上し,録音とのギャップを埋めることができた。
- 参考スコア(独自算出の注目度): 5.521191428642322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whilst recent neural text-to-speech (TTS) approaches produce high-quality
speech, they typically require a large amount of recordings from the target
speaker. In previous work, a 3-step method was proposed to generate
high-quality TTS while greatly reducing the amount of data required for
training. However, we have observed a ceiling effect in the level of
naturalness achievable for highly expressive voices when using this approach.
In this paper, we present a method for building highly expressive TTS voices
with as little as 15 minutes of speech data from the target speaker. Compared
to the current state-of-the-art approach, our proposed improvements close the
gap to recordings by 23.3% for naturalness of speech and by 16.3% for speaker
similarity. Further, we match the naturalness and speaker similarity of a
Tacotron2-based full-data (~10 hours) model using only 15 minutes of target
speaker data, whereas with 30 minutes or more, we significantly outperform it.
The following improvements are proposed: 1) changing from an autoregressive,
attention-based TTS model to a non-autoregressive model replacing attention
with an external duration model and 2) an additional Conditional Generative
Adversarial Network (cGAN) based fine-tuning step.
- Abstract(参考訳): 最近のニューラルテキスト音声(TTS)アプローチは高品質な音声を生成するが、通常はターゲット話者からの大量の録音を必要とする。
先行研究では,高品質ttを生成するための3段階の手法を提案し,トレーニングに必要なデータ量を大幅に削減した。
しかし, この手法では, 高い表現力を持つ音声に対して, 自然性レベルにおける天井効果が認められている。
本稿では,ターゲット話者から15分間の音声データを用いて,高い表現力を持つTS音声を構築する手法を提案する。
現在の最先端のアプローチと比較して,提案手法では音声の自然性が23.3%,話者の類似性が16.3%向上している。
さらに,15分間の話者データを用いて,tacotron2ベースのフルデータモデル(約10時間)の自然性と話者の類似性を一致させた。
1) 自己回帰型注意型ttsモデルから, 注意を外部持続時間モデルに置き換えた非自己回帰型モデルに変更すること, 2) 追加条件付き生成敵ネットワーク(cgan)ベースの微調整ステップを提案する。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech [26.533600745910437]
本稿では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。
また,モデルがしきい値を自動的に学習することのできる,新しい微分可能なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T21:25:05Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Adapting TTS models For New Speakers using Transfer Learning [12.46931609726818]
新しい話者のためのニューラルテキスト音声(TTS)モデルのトレーニングは通常、数時間の高品質な音声データを必要とする。
本稿では,数分間の音声データを用いて,高品質な単一話者TSモデルを新しい話者に適用するための伝達学習ガイドラインを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:51:25Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Low-resource expressive text-to-speech using data augmentation [12.396086122947679]
本稿では,大量のターゲットデータを記録するコストのかかる操作を回避するために,新しい3段階の手法を提案する。
我々は、他の話者からの所望の話し方での録音を活用することで、音声変換によるデータ拡張を行う。
次に、利用可能な録音の上に合成データを使って、TSモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-11T11:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。