論文の概要: Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement
- arxiv url: http://arxiv.org/abs/2005.12531v2
- Date: Thu, 22 Oct 2020 11:36:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:37:50.725493
- Title: Noise Robust TTS for Low Resource Speakers using Pre-trained Model and
Speech Enhancement
- Title(参考訳): 事前学習モデルと音声強調を用いた低資源話者のための雑音ロバストTS
- Authors: Dongyang Dai, Li Chen, Yuping Wang, Mu Wang, Rui Xia, Xuchen Song,
Zhiyong Wu, Yuxuan Wang
- Abstract要約: 提案したエンドツーエンド音声合成モデルでは,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として利用する。
実験結果から,提案手法により生成した音声は,直接調整したマルチ話者音声合成モデルよりも主観評価が優れていることがわかった。
- 参考スコア(独自算出の注目度): 31.33429812278942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the popularity of deep neural network, speech synthesis task has
achieved significant improvements based on the end-to-end encoder-decoder
framework in the recent days. More and more applications relying on speech
synthesis technology have been widely used in our daily life. Robust speech
synthesis model depends on high quality and customized data which needs lots of
collecting efforts. It is worth investigating how to take advantage of
low-quality and low resource voice data which can be easily obtained from the
Internet for usage of synthesizing personalized voice. In this paper, the
proposed end-to-end speech synthesis model uses both speaker embedding and
noise representation as conditional inputs to model speaker and noise
information respectively. Firstly, the speech synthesis model is pre-trained
with both multi-speaker clean data and noisy augmented data; then the
pre-trained model is adapted on noisy low-resource new speaker data; finally,
by setting the clean speech condition, the model can synthesize the new
speaker's clean voice. Experimental results show that the speech generated by
the proposed approach has better subjective evaluation results than the method
directly fine-tuning pre-trained multi-speaker speech synthesis model with
denoised new speaker data.
- Abstract(参考訳): ディープニューラルネットワークの普及により、音声合成タスクは、近年、エンドツーエンドエンコーダ-デコーダフレームワークに基づいて大幅に改善されている。
音声合成技術を活用した応用が、私たちの日常生活で広く利用されている。
ロバスト音声合成モデルは、多くの収集作業を必要とする高品質でカスタマイズされたデータに依存する。
パーソナライズされた音声の合成にインターネットから容易に得ることができる低品質で低リソースな音声データを活用する方法について検討する価値がある。
本稿では,話者埋め込みと雑音表現をそれぞれモデル話者と雑音情報に対する条件入力として用いたエンドツーエンド音声合成モデルを提案する。
まず、音声合成モデルをマルチスピーカクリーンなデータとノイズの多い拡張データの両方で事前訓練し、次に、ノイズの多い低リソースな新しい話者データに事前学習モデルを適応させ、最後に、クリーンな音声条件を設定することにより、新しい話者のクリーンな音声を合成することができる。
実験結果から,提案手法により生成した音声は,事前学習した複数話者音声合成モデルを直接微調整する手法よりも,主観評価が優れていることがわかった。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Improved Child Text-to-Speech Synthesis through Fastpitch-based Transfer
Learning [3.5032870024762386]
本稿では,Fastpitch text-to-speech(TTS)モデルを用いて,高品質な合成子音声を生成する手法を提案する。
このアプローチでは、子話を扱うためにマルチスピーカーTSモデルを微調整する。
実子声と合成子声の間に有意な相関が認められた客観的評価を行った。
論文 参考訳(メタデータ) (2023-11-07T19:31:44Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with
Disentangled Representations [12.388567657230116]
一般化可能なゼロショット話者適応音声変換モデルを提案する。
GZS-TVは、話者埋め込み抽出と音色変換のための不整合表現学習を導入した。
実験により、GZS-TVは、目に見えない話者の性能劣化を低減し、複数のデータセットで全てのベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T18:13:10Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - Low-resource expressive text-to-speech using data augmentation [12.396086122947679]
本稿では,大量のターゲットデータを記録するコストのかかる操作を回避するために,新しい3段階の手法を提案する。
我々は、他の話者からの所望の話し方での録音を活用することで、音声変換によるデータ拡張を行う。
次に、利用可能な録音の上に合成データを使って、TSモデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-11T11:22:37Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。