論文の概要: ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis
- arxiv url: http://arxiv.org/abs/2203.10473v1
- Date: Sun, 20 Mar 2022 07:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 19:25:01.920080
- Title: ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis
- Title(参考訳): ECAPA-TDNNによる音声合成
- Authors: Jinlong Xue, Yayue Deng, Ya Li, Jianqing Sun, Jiaen Liang
- Abstract要約: 本稿では,高品質な音声を生成できるエンドツーエンド手法を提案する。
この方法は、最先端のTDNNベースのECAPA-TDNNに基づく話者エンコーダ、FastSpeech2ベースのシンセサイザー、HiFi-GANボコーダの3つの別々に訓練されたコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 13.676243543864347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the neural network-based model for multi-speaker
text-to-speech synthesis (TTS) has made significant progress. However, the
current speaker encoder models used in these methods cannot capture enough
speaker information. In this paper, we propose an end-to-end method that is
able to generate high-quality speech and better similarity for both seen and
unseen speakers by introducing a more powerful speaker encoder. The method
consists of three separately trained components: a speaker encoder based on the
state-of-the-art TDNN-based ECAPA-TDNN derived from speaker verification task,
a FastSpeech2 based synthesizer, and a HiFi-GAN vocoder. By comparing different
speaker encoder models, our proposed method can achieve better naturalness and
similarity in seen and unseen test sets. To efficiently evaluate our
synthesized speech, we are the first to adopt deep-learning-based automatic MOS
evaluation methods to assess our results, and these methods show great
potential in automatic speech quality assessment.
- Abstract(参考訳): 近年,マルチ話者音声合成(TTS)のためのニューラルネットワークモデルが大きな進歩を遂げている。
しかし、これらの手法で使用される現在の話者エンコーダモデルでは十分な話者情報を取得できない。
本稿では,よりパワフルなスピーカエンコーダを導入することにより,高品質な音声を生成できるとともに,視聴覚・視聴覚両話者の類似度を向上させるエンドツーエンド手法を提案する。
この方法は、話者検証タスクから得られた最先端TDNNベースのECAPA-TDNNに基づく話者エンコーダと、FastSpeech2ベースのシンセサイザーと、HiFi-GANボコーダの3つの別々に訓練されたコンポーネントから構成される。
異なる話者エンコーダモデルを比較することにより,実測および未観測テストセットの自然性および類似性が向上する。
合成音声を効率よく評価するために,ディープラーニングに基づく自動MOS評価手法を初めて導入し,これらの手法は自動音声品質評価において大きな可能性を示す。
関連論文リスト
- Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Revisiting joint decoding based multi-talker speech recognition with DNN
acoustic model [34.061441900912136]
このようなスキームは準最適であり、すべての話者を共同で復号する原理的解法を提案する。
本研究では,全ての話者の関節後部状態を予測するために音響モデルを改良し,話者への音声信号の一部の帰属に関する不確実性をネットワークが表現できるようにする。
論文 参考訳(メタデータ) (2021-10-31T09:28:04Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z) - Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes [36.63589873242547]
マルチスピーカ音声合成は,複数の話者の声を単一モデルでモデル化する手法である。
ディープガウス過程(DGP)と潜在変数モデル(DGPLVM)を用いた多話者音声合成のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T02:03:27Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。