論文の概要: Rapid Speaker Adaptation in Low Resource Text to Speech Systems using
Synthetic Data and Transfer learning
- arxiv url: http://arxiv.org/abs/2312.01107v1
- Date: Sat, 2 Dec 2023 10:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 19:04:20.533020
- Title: Rapid Speaker Adaptation in Low Resource Text to Speech Systems using
Synthetic Data and Transfer learning
- Title(参考訳): 合成データと伝達学習を用いた低資源テキストの音声システムへの高速話者適応
- Authors: Raviraj Joshi, Nikesh Garera
- Abstract要約: 本稿では,高ソース言語データと合成データを用いたトランスファー学習手法を提案する。
我々は、低リソースのインドのヒンディー語で高品質な単一話者TSシステムの訓練に3段階のアプローチを採用する。
- 参考スコア(独自算出の注目度): 6.544954579068865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-speech (TTS) systems are being built using end-to-end deep learning
approaches. However, these systems require huge amounts of training data. We
present our approach to built production quality TTS and perform speaker
adaptation in extremely low resource settings. We propose a transfer learning
approach using high-resource language data and synthetically generated data. We
transfer the learnings from the out-domain high-resource English language.
Further, we make use of out-of-the-box single-speaker TTS in the target
language to generate in-domain synthetic data. We employ a three-step approach
to train a high-quality single-speaker TTS system in a low-resource Indian
language Hindi. We use a Tacotron2 like setup with a spectrogram prediction
network and a waveglow vocoder. The Tacotron2 acoustic model is trained on
English data, followed by synthetic Hindi data from the existing TTS system.
Finally, the decoder of this model is fine-tuned on only 3 hours of target
Hindi speaker data to enable rapid speaker adaptation. We show the importance
of this dual pre-training and decoder-only fine-tuning using subjective MOS
evaluation. Using transfer learning from high-resource language and synthetic
corpus we present a low-cost solution to train a custom TTS model.
- Abstract(参考訳): テキスト音声(TTS)システムは、エンドツーエンドのディープラーニングアプローチを使って構築されている。
しかし、これらのシステムは大量のトレーニングデータを必要とする。
生産品質TTSの構築と、極めて低い資源環境下で話者適応を行うためのアプローチを提案する。
本稿では,高資源言語データと合成データを用いた転送学習手法を提案する。
我々は、外部ドメインの高リソース英語から学習を転送する。
さらに,対象言語における単一話者ttsを用いて,ドメイン内合成データを生成する。
3段階のアプローチでハイクオリティな単一話者ttsシステムを低リソースインド語ヒンディー語で訓練した。
我々は、スペクトル予測ネットワークとウェーブグローボコーダを備えたTacotron2ライクなセットアップを使用する。
tacotron2音響モデルは英語のデータに基づいて訓練され、続いて既存のttsシステムからの合成ヒンズーデータがある。
最後に、このモデルのデコーダは3時間のヒンディー語話者データのみに微調整され、話者適応が迅速になる。
主観的MOS評価を用いた2つの事前学習とデコーダのみの微調整の重要性を示す。
高リソース言語と合成コーパスからの転送学習を用いて,カスタムttsモデルをトレーニングするための低コストなソリューションを提案する。
関連論文リスト
- Code-Mixed Text to Speech Synthesis under Low-Resource Constraints [6.544954579068865]
本稿では,eコマースアプリケーション向けに構築されたHindi-English TTSシステムについて述べる。
本稿では,個々の言語におけるモノリンガルデータセットを利用したデータ指向手法を提案する。
純粋なコード混在テストセットでは、コード混在のない単一のスクリプトバイランガルトレーニングが有効であることを示す。
論文 参考訳(メタデータ) (2023-12-02T10:40:38Z) - Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [92.55131711064935]
テキストから音声合成(TTS)のための言語モデリング手法を提案する。
具体的には、市販のニューラルオーディオモデルから派生した離散符号を用いて、ニューラルネットワークモデル(Vall-E)を訓練する。
Vall-Eは、コンテキスト内学習機能を導入し、高品質なパーソナライズされた音声の合成に使用できる。
論文 参考訳(メタデータ) (2023-01-05T15:37:15Z) - Towards Building Text-To-Speech Systems for the Next Billion Users [18.290165216270452]
そこで我々は,ドラヴィダ語とインド・アーリア語に対する音響モデル,ボコーダ,補足的損失関数,訓練スケジュール,話者および言語多様性の選択について検討した。
我々は,13言語を対象としたTSモデルをトレーニングし,評価し,各言語における既存のモデルを大幅に改善するモデルを見出した。
論文 参考訳(メタデータ) (2022-11-17T13:59:34Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Semi-supervised transfer learning for language expansion of end-to-end
speech recognition models to low-resource languages [19.44975351652865]
低音源言語における音声認識精度向上のための3段階学習手法を提案する。
我々は、翻訳学習、TS拡張、SSLを用いて、よく訓練された英語モデル、ラベルなしテキストコーパス、ラベルなしオーディオコーパスを利用する。
第1パスにおけるモノトニック・チャンクワイド・アテンション(MoA)を用いた2パス音声認識システムでは,ベースラインに対するWERの42%削減を実現している。
論文 参考訳(メタデータ) (2021-11-19T05:09:16Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Using IPA-Based Tacotron for Data Efficient Cross-Lingual Speaker
Adaptation and Pronunciation Enhancement [1.7704011486040843]
我々は、20分間のデータのみを用いて、同一または異なる言語から、新しい話者のための既存のTSモデルを転送可能であることを示す。
まず、言語に依存しない入力を持つ基本多言語タコトロンを導入し、話者適応の異なるシナリオに対してトランスファー学習がどのように行われるかを実証する。
論文 参考訳(メタデータ) (2020-11-12T14:05:34Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。