論文の概要: AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios
- arxiv url: http://arxiv.org/abs/2204.00436v1
- Date: Fri, 1 Apr 2022 13:47:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 13:58:35.920687
- Title: AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios
- Title(参考訳): adaspeech 4: ゼロショットシナリオにおける音声適応テキスト
- Authors: Yihan Wu, Xu Tan, Bohan Li, Lei He, Sheng Zhao, Ruihua Song, Tao Qin,
Tie-Yan Liu
- Abstract要約: 高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
- 参考スコア(独自算出の注目度): 143.47967241972995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive text to speech (TTS) can synthesize new voices in zero-shot
scenarios efficiently, by using a well-trained source TTS model without
adapting it on the speech data of new speakers. Considering seen and unseen
speakers have diverse characteristics, zero-shot adaptive TTS requires strong
generalization ability on speaker characteristics, which brings modeling
challenges. In this paper, we develop AdaSpeech 4, a zero-shot adaptive TTS
system for high-quality speech synthesis. We model the speaker characteristics
systematically to improve the generalization on new speakers. Generally, the
modeling of speaker characteristics can be categorized into three steps:
extracting speaker representation, taking this speaker representation as
condition, and synthesizing speech/mel-spectrogram given this speaker
representation. Accordingly, we improve the modeling in three steps: 1) To
extract speaker representation with better generalization, we factorize the
speaker characteristics into basis vectors and extract speaker representation
by weighted combining of these basis vectors through attention. 2) We leverage
conditional layer normalization to integrate the extracted speaker
representation to TTS model. 3) We propose a novel supervision loss based on
the distribution of basis vectors to maintain the corresponding speaker
characteristics in generated mel-spectrograms. Without any fine-tuning,
AdaSpeech 4 achieves better voice quality and similarity than baselines in
multiple datasets.
- Abstract(参考訳): アダプティブテキスト・トゥ・スピーチ(TTS)は、話者の音声データに適応することなく、よく訓練されたソースTSモデルを用いて、ゼロショットシナリオにおける新しい音声を効率的に合成することができる。
目に見えない話者には様々な特徴があるため、ゼロショット適応TSは話者特性に強力な一般化能力を必要とし、モデリング上の課題をもたらす。
本稿では,高品質音声合成のためのゼロショット適応ttsシステムadaspeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
一般に、話者特性のモデル化は、話者表現を抽出し、この話者表現を条件として、この話者表現を合成する3つのステップに分けられる。
したがって、3つのステップでモデリングを改善する。
1)より一般化された話者表現を抽出するために,話者特性を基本ベクトルに分解し,これらの基本ベクトルの重み付けにより話者表現を抽出する。
2) 条件層正規化を利用して抽出した話者表現をTSモデルに統合する。
3) 生成されたメルスペクトログラムにおける対応する話者特性を維持するための基底ベクトル分布に基づく新しい監督損失を提案する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
関連論文リスト
- SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection [7.6732312922460055]
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:34:46Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with
Disentangled Representations [12.388567657230116]
一般化可能なゼロショット話者適応音声変換モデルを提案する。
GZS-TVは、話者埋め込み抽出と音色変換のための不整合表現学習を導入した。
実験により、GZS-TVは、目に見えない話者の性能劣化を低減し、複数のデータセットで全てのベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T18:13:10Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。