論文の概要: GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints
- arxiv url: http://arxiv.org/abs/2108.06890v1
- Date: Mon, 16 Aug 2021 04:25:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 14:42:50.780764
- Title: GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints
- Title(参考訳): GC-TTS:幾何制約による話者適応
- Authors: Ji-Hoon Kim, Sang-Hoon Lee, Ji-Hyun Lee, Hong-Gyu Jung, and Seong-Whan
Lee
- Abstract要約: 話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
- 参考スコア(独自算出の注目度): 36.07346889498981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot speaker adaptation is a specific Text-to-Speech (TTS) system that
aims to reproduce a novel speaker's voice with a few training data. While
numerous attempts have been made to the few-shot speaker adaptation system,
there is still a gap in terms of speaker similarity to the target speaker
depending on the amount of data. To bridge the gap, we propose GC-TTS which
achieves high-quality speaker adaptation with significantly improved speaker
similarity. Specifically, we leverage two geometric constraints to learn
discriminative speaker representations. Here, a TTS model is pre-trained for
base speakers with a sufficient amount of data, and then fine-tuned for novel
speakers on a few minutes of data with two geometric constraints. Two geometric
constraints enable the model to extract discriminative speaker embeddings from
limited data, which leads to the synthesis of intelligible speech. We discuss
and verify the effectiveness of GC-TTS by comparing it with popular and
essential methods. The experimental results demonstrate that GC-TTS generates
high-quality speech from only a few minutes of training data, outperforming
standard techniques in terms of speaker similarity to the target speaker.
- Abstract(参考訳): few-shot speaker adaptationはtts(text-to-speech)システムであり、少数の訓練データを用いて新しい話者の声を再現することを目的としている。
少数の話者適応システムでは、多くの試みがなされているが、データ量によっては、対象話者と話者の類似性に差がある。
このギャップを埋めるため, 話者類似性を大幅に改善した高品質な話者適応を実現するGC-TTSを提案する。
具体的には,2つの幾何学的制約を生かして識別話者表現を学習する。
ここで、ttsモデルは十分な量のデータを持つベーススピーカー向けに事前訓練され、それから2つの幾何学的制約のある数分のデータに基づいて、新しいスピーカー用に微調整される。
2つの幾何学的制約により、モデルは限られたデータから識別可能な話者埋め込みを抽出することができ、それが可知音声の合成につながる。
我々は,gc-ttsの有効性を,一般的な方法と本質的な方法と比較し,検証する。
実験の結果、gc-ttsは、わずか数分の訓練データから高品質な音声を生成できることが示され、対象話者との話者類似性の観点からの標準技術よりも優れていた。
関連論文リスト
- SelectTTS: Synthesizing Anyone's Voice via Discrete Unit-Based Frame Selection [7.6732312922460055]
本稿では,対象話者から適切なフレームを選択するための新しい手法であるSelectTTSを提案し,フレームレベルの自己教師型学習(SSL)機能を用いてデコードする。
提案手法は,未知話者の話者特性を効果的に把握し,主観的および主観的の両方において,他のマルチ話者テキスト音声フレームワークに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:34:46Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios [143.47967241972995]
高品質音声合成のためのゼロショット適応型TSシステムであるAdaSpeech 4を開発した。
話者特性を体系的にモデル化し、新しい話者の一般化を改善する。
微調整なしでは、AdaSpeech 4は複数のデータセットのベースラインよりも声質と類似性が向上する。
論文 参考訳(メタデータ) (2022-04-01T13:47:44Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Adapting TTS models For New Speakers using Transfer Learning [12.46931609726818]
新しい話者のためのニューラルテキスト音声(TTS)モデルのトレーニングは通常、数時間の高品質な音声データを必要とする。
本稿では,数分間の音声データを用いて,高品質な単一話者TSモデルを新しい話者に適用するための伝達学習ガイドラインを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:51:25Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - AdaSpeech: Adaptive Text to Speech for Custom Voice [104.69219752194863]
新しい音声の高品質かつ効率的なカスタマイズのための適応型TSシステムであるAdaSpeechを提案する。
実験結果から,AdaSpeechはベースライン法よりも適応性が高く,話者毎のパラメータは5K程度であった。
論文 参考訳(メタデータ) (2021-03-01T13:28:59Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。