論文の概要: Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with
Disentangled Representations
- arxiv url: http://arxiv.org/abs/2308.13007v1
- Date: Thu, 24 Aug 2023 18:13:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 16:21:29.553775
- Title: Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with
Disentangled Representations
- Title(参考訳): アンタングル表現を用いた一般化可能なゼロショット話者適応音声合成
- Authors: Wenbin Wang, Yang Song, Sanjay Jha
- Abstract要約: 一般化可能なゼロショット話者適応音声変換モデルを提案する。
GZS-TVは、話者埋め込み抽出と音色変換のための不整合表現学習を導入した。
実験により、GZS-TVは、目に見えない話者の性能劣化を低減し、複数のデータセットで全てのベースラインモデルより優れていることが示された。
- 参考スコア(独自算出の注目度): 12.388567657230116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While most research into speech synthesis has focused on synthesizing
high-quality speech for in-dataset speakers, an equally essential yet unsolved
problem is synthesizing speech for unseen speakers who are out-of-dataset with
limited reference data, i.e., speaker adaptive speech synthesis. Many studies
have proposed zero-shot speaker adaptive text-to-speech and voice conversion
approaches aimed at this task. However, most current approaches suffer from the
degradation of naturalness and speaker similarity when synthesizing speech for
unseen speakers (i.e., speakers not in the training dataset) due to the poor
generalizability of the model in out-of-distribution data. To address this
problem, we propose GZS-TV, a generalizable zero-shot speaker adaptive
text-to-speech and voice conversion model. GZS-TV introduces disentangled
representation learning for both speaker embedding extraction and timbre
transformation to improve model generalization and leverages the representation
learning capability of the variational autoencoder to enhance the speaker
encoder. Our experiments demonstrate that GZS-TV reduces performance
degradation on unseen speakers and outperforms all baseline models in multiple
datasets.
- Abstract(参考訳): 音声合成のほとんどの研究は、データベース内話者のための高品質な音声の合成に焦点が当てられているが、同様に必要だが未解決の問題は、限られた参照データ、すなわち話者適応音声合成でデータセット外である話者に対する音声の合成である。
多くの研究が、この課題を対象としたゼロショット話者適応テキスト対音声変換アプローチを提案している。
しかし、現在のアプローチのほとんどが、分布外データにおけるモデルの一般性が悪いため、未熟な話者(すなわち、訓練データセットにない話者)の音声合成において、自然性や話者の類似性の低下に苦しんでいる。
この問題に対処するために,一般化可能なゼロショット話者適応音声変換モデルであるGZS-TVを提案する。
gzs-tvは、モデル一般化を改善するために話者埋め込み抽出と音色変換の両方に乱れ表現学習を導入し、変分オートエンコーダの表現学習能力を活用して話者エンコーダを強化する。
実験により,gzs-tvは未認識話者の性能低下を低減し,複数のデータセットにおいて,すべてのベースラインモデルを上回ることを示した。
関連論文リスト
- CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。
話者の類似度は低く、プロソディの自然度は低い。
本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:42:21Z) - USAT: A Universal Speaker-Adaptive Text-to-Speech Approach [11.022840133207788]
目に見えない、データセット外話者のために、人生のようなスピーチを無視するという課題は、重要で未解決のままである。
ゼロショットアプローチは、強いアクセントを持つ話者の声を再現するために、一般化性能が不十分である。
非常に多様なアクセントを再現することができず、保存の負担が大きくなり、過度なフィットや破滅的な忘れ込みのリスクが生じる。
提案手法は,ゼロショット話者適応戦略と少数ショット話者適応戦略を一体化したものである。
論文 参考訳(メタデータ) (2024-04-28T06:50:55Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Continual Speaker Adaptation for Text-to-Speech Synthesis [2.3224617218247126]
本稿では,連続学習の観点からのTSモデリングについて考察する。
目標は、以前のスピーカーを忘れずに新しいスピーカーを追加することです。
経験リプレイと重みの規則化という2つのよく知られた手法を連続学習に活用する。
論文 参考訳(メタデータ) (2021-03-26T15:14:20Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement [31.33429812278942]
提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。
実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-26T06:14:06Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。