論文の概要: Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation
- arxiv url: http://arxiv.org/abs/2005.08024v2
- Date: Tue, 4 Aug 2020 07:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 13:40:39.590327
- Title: Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation
- Title(参考訳): 離散音声表現を用いたマルチ話者音声合成のための半教師付き学習
- Authors: Tao Tu, Yuan-Jui Chen, Alexander H. Liu, Hung-yi Lee
- Abstract要約: マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
- 参考スコア(独自算出の注目度): 125.59372403631006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, end-to-end multi-speaker text-to-speech (TTS) systems gain success
in the situation where a lot of high-quality speech plus their corresponding
transcriptions are available. However, laborious paired data collection
processes prevent many institutes from building multi-speaker TTS systems of
great performance. In this work, we propose a semi-supervised learning approach
for multi-speaker TTS. A multi-speaker TTS model can learn from the
untranscribed audio via the proposed encoder-decoder framework with discrete
speech representation. The experiment results demonstrate that with only an
hour of paired speech data, no matter the paired data is from multiple speakers
or a single speaker, the proposed model can generate intelligible speech in
different voices. We found the model can benefit from the proposed
semi-supervised learning approach even when part of the unpaired speech data is
noisy. In addition, our analysis reveals that different speaker characteristics
of the paired data have an impact on the effectiveness of semi-supervised TTS.
- Abstract(参考訳): 近年,tts(end-to-end multi-speaker text-to-speech)システムは,高品質な音声と対応する書き起こしが多数利用できる状況で成功を収めている。
しかし、多くの研究所が高性能なマルチスピーカーTSシステムを構築するのを妨げている。
本研究では,マルチスピーカTSに対する半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
実験結果から,ペア音声は1時間で,複数の話者や1つの話者からのデータであっても,異なる音声で知覚可能な音声を生成することができることがわかった。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
さらに,本分析の結果から,ペアデータの話者特性が半教師付きTSの有効性に与える影響が明らかになった。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - End-to-End Single-Channel Speaker-Turn Aware Conversational Speech
Translation [23.895122319920997]
エンド・ツー・エンドおよびマルチタスク・トレーニングモデルを用いて、単一チャンネルのマルチ話者会話STに取り組む。
Speaker-Turn Aware Conversational Speech Translationは、音声認識、音声翻訳、話者のターン検出を組み合わせる。
本研究では,本モデルがマルチスピーカ条件で参照システムより優れ,単一スピーカ条件で同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-01T17:55:09Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Transfer Learning Framework for Low-Resource Text-to-Speech using a
Large-Scale Unlabeled Speech Corpus [10.158584616360669]
テキスト音声(TTS)モデルのトレーニングには,大規模テキストラベル付き音声コーパスが必要となる。
本稿では、事前学習に大量のラベルなし音声データセットを利用するTSの転送学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T11:26:56Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints [36.07346889498981]
話者類似性を大幅に向上した高品質な話者適応を実現するGC-TTSを提案する。
TTSモデルは、十分な量のデータを持つベーススピーカーに対して事前訓練され、それから2つの幾何学的制約を持つ数分のデータに基づいて、新しいスピーカーのために微調整される。
実験結果から,GC-TTSは学習データの数分で高品質な音声を生成できることがわかった。
論文 参考訳(メタデータ) (2021-08-16T04:25:31Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z) - Synth2Aug: Cross-domain speaker recognition with TTS synthesized speech [8.465993273653554]
話者認識を支援するために,多話者テキスト音声合成システムを用いて音声合成を行う。
我々は、TTS合成音声がクロスドメイン話者認識性能を向上させることをデータセット上で観察する。
また,TTS合成に使用するテキストの異なるタイプの有効性についても検討する。
論文 参考訳(メタデータ) (2020-11-24T00:48:54Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。