論文の概要: GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis
- arxiv url: http://arxiv.org/abs/2106.15153v1
- Date: Tue, 29 Jun 2021 08:15:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:37:26.232288
- Title: GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis
- Title(参考訳): ganspeech: 高度多話者音声合成のための逆学習
- Authors: Jinhyeok Yang, Jae-Sung Bae, Taejun Bak, Youngik Kim, Hoon-Young Cho
- Abstract要約: GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 6.632254395574993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in neural multi-speaker text-to-speech (TTS) models have
enabled the generation of reasonably good speech quality with a single model
and made it possible to synthesize the speech of a speaker with limited
training data. Fine-tuning to the target speaker data with the multi-speaker
model can achieve better quality, however, there still exists a gap compared to
the real speech sample and the model depends on the speaker. In this work, we
propose GANSpeech, which is a high-fidelity multi-speaker TTS model that adopts
the adversarial training method to a non-autoregressive multi-speaker TTS
model. In addition, we propose simple but efficient automatic scaling methods
for feature matching loss used in adversarial training. In the subjective
listening tests, GANSpeech significantly outperformed the baseline
multi-speaker FastSpeech and FastSpeech2 models, and showed a better MOS score
than the speaker-specific fine-tuned FastSpeech2.
- Abstract(参考訳): ニューラルマルチスピーカー音声合成(TTS)モデルの最近の進歩により、単一のモデルで合理的に優れた音声品質の生成が可能となり、限られた訓練データで話者の音声を合成できるようになった。
対象話者データをマルチスピーカモデルで微調整することで、より良い品質が得られるが、実際の音声サンプルとの違いは依然として存在し、モデルは話者に依存する。
本研究では,非自己回帰型マルチスピーカTSモデルに逆方向学習法を適用した高忠実度マルチスピーカTSモデルであるGANSpeechを提案する。
さらに,敵の訓練で使用する特徴マッチング損失に対する簡易かつ効率的な自動スケーリング手法を提案する。
主観的聴力試験では, GANSpeechはベースライン型マルチスピーカーであるFastSpeechとFastSpeech2より有意に優れ, 話者特異的なFastSpeech2よりも優れたMOSスコアを示した。
関連論文リスト
- SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection [7.6732312922460055]
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:34:46Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。