論文の概要: Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation
- arxiv url: http://arxiv.org/abs/2106.03153v1
- Date: Sun, 6 Jun 2021 15:34:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-13 14:29:24.686476
- Title: Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation
- Title(参考訳): メタスタイル音声 : 多話者適応テキスト音声生成
- Authors: Dongchan Min, Dong Bok Lee, Eunho Yang, Sung Ju Hwang
- Abstract要約: StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
- 参考スコア(独自算出の注目度): 63.561944239071615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With rapid progress in neural text-to-speech (TTS) models, personalized
speech generation is now in high demand for many applications. For practical
applicability, a TTS model should generate high-quality speech with only a few
audio samples from the given speaker, that are also short in length. However,
existing methods either require to fine-tune the model or achieve low
adaptation quality without fine-tuning. In this work, we propose StyleSpeech, a
new TTS model which not only synthesizes high-quality speech but also
effectively adapts to new speakers. Specifically, we propose Style-Adaptive
Layer Normalization (SALN) which aligns gain and bias of the text input
according to the style extracted from a reference speech audio. With SALN, our
model effectively synthesizes speech in the style of the target speaker even
from single speech audio. Furthermore, to enhance StyleSpeech's adaptation to
speech from new speakers, we extend it to Meta-StyleSpeech by introducing two
discriminators trained with style prototypes, and performing episodic training.
The experimental results show that our models generate high-quality speech
which accurately follows the speaker's voice with single short-duration (1-3
sec) speech audio, significantly outperforming baselines.
- Abstract(参考訳): neural text-to-speech (tts)モデルの急速な進歩により、パーソナライズされた音声生成が多くのアプリケーションで高需要となっている。
実用的な適用性のために、ttsモデルは、与えられた話者から少数の音声サンプルだけで高品質な音声を生成する必要がある。
しかし、既存の手法では、モデルを微調整するか、あるいは微調整なしで低い適応品質を達成する必要がある。
本稿では,高品質な音声を合成するだけでなく,新しい話者に効果的に適応する新しいttsモデルであるstylespeechを提案する。
具体的には、参照音声から抽出したスタイルに応じてテキスト入力の利得とバイアスを調整するスタイル適応層正規化(SALN)を提案する。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
さらに,新しい話者の発話に対するスタイルピーチの適応性を高めるために,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソディクス訓練を行うことにより,メタスタイルスピーチに拡張した。
実験結果から, 話者の音声を1~3秒の短い音声で正確に追従する高品質な音声が生成され, ベースラインを著しく上回ることがわかった。
関連論文リスト
- SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection [7.6732312922460055]
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:34:46Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。