論文の概要: Continual Speaker Adaptation for Text-to-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2103.14512v1
- Date: Fri, 26 Mar 2021 15:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 15:57:13.743203
- Title: Continual Speaker Adaptation for Text-to-Speech Synthesis
- Title(参考訳): 音声合成のための連続話者適応
- Authors: Hamed Hemati, Damian Borth
- Abstract要約: 本稿では,連続学習の観点からのTSモデリングについて考察する。
目標は、以前のスピーカーを忘れずに新しいスピーカーを追加することです。
経験リプレイと重みの規則化という2つのよく知られた手法を連続学習に活用する。
- 参考スコア(独自算出の注目度): 2.3224617218247126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training a multi-speaker Text-to-Speech (TTS) model from scratch is
computationally expensive and adding new speakers to the dataset requires the
model to be re-trained. The naive solution of sequential fine-tuning of a model
for new speakers can cause the model to have poor performance on older
speakers. This phenomenon is known as catastrophic forgetting. In this paper,
we look at TTS modeling from a continual learning perspective where the goal is
to add new speakers without forgetting previous speakers. Therefore, we first
propose an experimental setup and show that serial fine-tuning for new speakers
can result in the forgetting of the previous speakers. Then we exploit two
well-known techniques for continual learning namely experience replay and
weight regularization and we reveal how one can mitigate the effect of
degradation in speech synthesis diversity in sequential training of new
speakers using these methods. Finally, we present a simple extension to improve
the results in extreme setups.
- Abstract(参考訳): マルチスピーカーのText-to-Speech(TTS)モデルをスクラッチからトレーニングするには計算コストがかかり、データセットに新しい話者を追加するには、モデルを再トレーニングする必要がある。
新しい話者のためのモデルの逐次的微調整のナイーブな解決策は、モデルが古い話者のパフォーマンスを低下させる可能性がある。
この現象は破滅的な忘れ物として知られている。
本稿では,従来の話者を忘れずに新しい話者を追加することを目標とする連続学習の観点から,TSモデリングを考察する。
そこで本研究では,まず実験的なセットアップを提案し,新たな話者の連続的微調整により,先行話者が忘れ去られることを示す。
次に,経験リプレイと重み規則化という2つの連続学習手法を用いて,新しい話者の逐次学習における音声合成多様性の劣化の影響を軽減できることを示す。
最後に、極端な設定で結果を改善するための簡単な拡張を示す。
関連論文リスト
- Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with
Disentangled Representations [12.388567657230116]
一般化可能なゼロショット話者適応音声変換モデルを提案する。
GZS-TVは、話者埋め込み抽出と音色変換のための不整合表現学習を導入した。
実験により、GZS-TVは、目に見えない話者の性能劣化を低減し、複数のデータセットで全てのベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T18:13:10Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Adapting TTS models For New Speakers using Transfer Learning [12.46931609726818]
新しい話者のためのニューラルテキスト音声(TTS)モデルのトレーニングは通常、数時間の高品質な音声データを必要とする。
本稿では,数分間の音声データを用いて,高品質な単一話者TSモデルを新しい話者に適用するための伝達学習ガイドラインを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:51:25Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Using IPA-Based Tacotron for Data Efficient Cross-Lingual Speaker
Adaptation and Pronunciation Enhancement [1.7704011486040843]
我々は、20分間のデータのみを用いて、同一または異なる言語から、新しい話者のための既存のTSモデルを転送可能であることを示す。
まず、言語に依存しない入力を持つ基本多言語タコトロンを導入し、話者適応の異なるシナリオに対してトランスファー学習がどのように行われるかを実証する。
論文 参考訳(メタデータ) (2020-11-12T14:05:34Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。