論文の概要: USAT: A Universal Speaker-Adaptive Text-to-Speech Approach
- arxiv url: http://arxiv.org/abs/2404.18094v1
- Date: Sun, 28 Apr 2024 06:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 17:53:05.970666
- Title: USAT: A Universal Speaker-Adaptive Text-to-Speech Approach
- Title(参考訳): USAT: ユニバーサル話者適応型テキスト音声合成手法
- Authors: Wenbin Wang, Yang Song, Sanjay Jha,
- Abstract要約: 目に見えない、データセット外話者のために、人生のようなスピーチを無視するという課題は、重要で未解決のままである。
ゼロショットアプローチは、強いアクセントを持つ話者の声を再現するために、一般化性能が不十分である。
非常に多様なアクセントを再現することができず、保存の負担が大きくなり、過度なフィットや破滅的な忘れ込みのリスクが生じる。
提案手法は,ゼロショット話者適応戦略と少数ショット話者適応戦略を一体化したものである。
- 参考スコア(独自算出の注目度): 11.022840133207788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional text-to-speech (TTS) research has predominantly focused on enhancing the quality of synthesized speech for speakers in the training dataset. The challenge of synthesizing lifelike speech for unseen, out-of-dataset speakers, especially those with limited reference data, remains a significant and unresolved problem. While zero-shot or few-shot speaker-adaptive TTS approaches have been explored, they have many limitations. Zero-shot approaches tend to suffer from insufficient generalization performance to reproduce the voice of speakers with heavy accents. While few-shot methods can reproduce highly varying accents, they bring a significant storage burden and the risk of overfitting and catastrophic forgetting. In addition, prior approaches only provide either zero-shot or few-shot adaptation, constraining their utility across varied real-world scenarios with different demands. Besides, most current evaluations of speaker-adaptive TTS are conducted only on datasets of native speakers, inadvertently neglecting a vast portion of non-native speakers with diverse accents. Our proposed framework unifies both zero-shot and few-shot speaker adaptation strategies, which we term as "instant" and "fine-grained" adaptations based on their merits. To alleviate the insufficient generalization performance observed in zero-shot speaker adaptation, we designed two innovative discriminators and introduced a memory mechanism for the speech decoder. To prevent catastrophic forgetting and reduce storage implications for few-shot speaker adaptation, we designed two adapters and a unique adaptation procedure.
- Abstract(参考訳): 従来のTTS (text-to-speech) 研究は、学習データセットにおける話者の合成音声の品質向上に重点を置いている。
データセット外話者、特に限られた参照データを持つ話者に対して、生活に似た音声を合成するという課題は、重要で未解決の課題である。
ゼロショットまたは少数ショットの話者適応型TSアプローチが検討されているが、多くの制限がある。
ゼロショットアプローチは、強いアクセントを持つ話者の声を再現するために、一般化性能が不十分な傾向がある。
非常に多様なアクセントを再現できる手法は少ないが、保存の負担が大きくなり、過度なフィットや破滅的な忘れ込みのリスクが生じる。
加えて、以前のアプローチはゼロショットまたは少数ショットの順応しか提供せず、異なる要求でさまざまな現実世界のシナリオでそれらのユーティリティを制限している。
さらに、現在の話者適応型TSのほとんどの評価は、ネイティブ話者のデータセットでのみ行われ、多彩なアクセントを持つ非ネイティブ話者の大部分を不注意に無視する。
提案手法は,ゼロショット話者適応戦略と少数ショット話者適応戦略を一体化したものである。
ゼロショット話者適応における一般化性能の不足を軽減するため、2つの革新的な識別器を設計し、音声デコーダのメモリ機構を導入した。
そこで我々は2つのアダプタと1つの適応手順を設計した。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with
Disentangled Representations [12.388567657230116]
一般化可能なゼロショット話者適応音声変換モデルを提案する。
GZS-TVは、話者埋め込み抽出と音色変換のための不整合表現学習を導入した。
実験により、GZS-TVは、目に見えない話者の性能劣化を低減し、複数のデータセットで全てのベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T18:13:10Z) - ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for
Low-Resource TTS Adaptation [18.84413550077318]
本研究では,異なる話者の独特の特徴を学習するために「アダプタの混合」手法を提案する。
提案手法は,話者選好試験において5%の顕著な改善がみられ,ベースラインよりも優れていた。
これはパラメータ効率のよい話者適応において重要な成果であり、この種の最初のモデルの1つである。
論文 参考訳(メタデータ) (2023-05-29T11:39:01Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。