論文の概要: JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech
- arxiv url: http://arxiv.org/abs/2203.16852v1
- Date: Thu, 31 Mar 2022 07:25:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 03:58:21.821118
- Title: JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to
Speech
- Title(参考訳): JETS: エンドツーエンド音声のためのFastSpeech2とHiFi-GANの共同トレーニング
- Authors: Dan Lim, Sunghee Jung, Eesung Kim
- Abstract要約: 本稿では、簡易な訓練パイプラインを持ち、個別に学習したモデルのカスケードを上回り、エンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルでは,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用する。
LJSpeechコーパスの実験では、提案されたモデルはESPNet2-TTSの最先端実装よりも優れていた。
- 参考スコア(独自算出の注目度): 7.476901945542385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In neural text-to-speech (TTS), two-stage system or a cascade of separately
learned models have shown synthesis quality close to human speech. For example,
FastSpeech2 transforms an input text to a mel-spectrogram and then HiFi-GAN
generates a raw waveform from a mel-spectogram where they are called an
acoustic feature generator and a neural vocoder respectively. However, their
training pipeline is somewhat cumbersome in that it requires a fine-tuning and
an accurate speech-text alignment for optimal performance. In this work, we
present end-to-end text-to-speech (E2E-TTS) model which has a simplified
training pipeline and outperforms a cascade of separately learned models.
Specifically, our proposed model is jointly trained FastSpeech2 and HiFi-GAN
with an alignment module. Since there is no acoustic feature mismatch between
training and inference, it does not requires fine-tuning. Furthermore, we
remove dependency on an external speech-text alignment tool by adopting an
alignment learning objective in our joint training framework. Experiments on
LJSpeech corpus shows that the proposed model outperforms publicly available,
state-of-the-art implementations of ESPNet2-TTS on subjective evaluation (MOS)
and some objective evaluations.
- Abstract(参考訳): ニューラルテキスト音声(TTS)では、2段階のシステムまたは個別に学習されたモデルのカスケードが人間の音声に近い合成品質を示している。
例えば、fastspeech2は入力テキストをメルスペクトログラムに変換し、それからhifi-ganはメルスペクトログラムから生の波形を生成し、それぞれ音響特徴生成器とニューラルネットワークボコーダと呼ばれる。
しかし、最適なパフォーマンスのために微調整と正確な音声テキストアライメントを必要とするという点で、トレーニングパイプラインは少々面倒である。
本研究では、簡易な学習パイプラインを持つエンドツーエンドのテキスト音声合成(E2E-TTS)モデルを提案する。
具体的には,アライメントモジュールを用いたFastSpeech2とHiFi-GANを併用したモデルを提案する。
トレーニングと推論の間に音響的特徴のミスマッチがないため、微調整は不要である。
さらに,共同学習フレームワークでは,アライメント学習目標を採用し,外部音声テキストアライメントツールへの依存を解消する。
LJSpeech corpus の実験により,提案モデルが一般公開されていること,主観評価(MOS)に基づくESPNet2-TTSの最先端実装,およびいくつかの客観的評価に優れた結果が得られた。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。