論文の概要: Using IPA-Based Tacotron for Data Efficient Cross-Lingual Speaker
Adaptation and Pronunciation Enhancement
- arxiv url: http://arxiv.org/abs/2011.06392v2
- Date: Thu, 31 Mar 2022 15:49:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 08:01:07.028270
- Title: Using IPA-Based Tacotron for Data Efficient Cross-Lingual Speaker
Adaptation and Pronunciation Enhancement
- Title(参考訳): IPA-based Tacotron を用いた多言語話者適応と発音強調
- Authors: Hamed Hemati, Damian Borth
- Abstract要約: 我々は、20分間のデータのみを用いて、同一または異なる言語から、新しい話者のための既存のTSモデルを転送可能であることを示す。
まず、言語に依存しない入力を持つ基本多言語タコトロンを導入し、話者適応の異なるシナリオに対してトランスファー学習がどのように行われるかを実証する。
- 参考スコア(独自算出の注目度): 1.7704011486040843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent neural Text-to-Speech (TTS) models have been shown to perform very
well when enough data is available. However, fine-tuning them for new speakers
or languages is not straightforward in a low-resource setup. In this paper, we
show that by applying minor modifications to a Tacotron model, one can transfer
an existing TTS model for new speakers from the same or a different language
using only 20 minutes of data. For this purpose, we first introduce a base
multi-lingual Tacotron with language-agnostic input, then demonstrate how
transfer learning is done for different scenarios of speaker adaptation without
exploiting any pre-trained speaker encoder or code-switching technique. We
evaluate the transferred model in both subjective and objective ways.
- Abstract(参考訳): 最近のNTS(Neural Text-to-Speech)モデルは、十分なデータが利用できる場合に非常によく機能することが示されている。
しかし、新しい話者や言語のための微調整は、低リソースのセットアップでは簡単ではない。
本稿では,Tacotronモデルに小さな修正を加えることで,20分間のデータのみを用いて,同一または異なる言語からの話者に対して,既存のTSモデルを転送可能であることを示す。
この目的のために,まず,言語に依存しない入力を持つ基本多言語タコトロンを導入し,その後,事前学習された話者エンコーダやコードスイッチング手法を活用せずに,話者適応の異なるシナリオにおいてトランスファー学習がどのように行われるかを実証する。
伝達モデルについて主観的および客観的に評価する。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Rapid Speaker Adaptation in Low Resource Text to Speech Systems using
Synthetic Data and Transfer learning [6.544954579068865]
本稿では,高ソース言語データと合成データを用いたトランスファー学習手法を提案する。
我々は、低リソースのインドのヒンディー語で高品質な単一話者TSシステムの訓練に3段階のアプローチを採用する。
論文 参考訳(メタデータ) (2023-12-02T10:52:00Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - Adapting TTS models For New Speakers using Transfer Learning [12.46931609726818]
新しい話者のためのニューラルテキスト音声(TTS)モデルのトレーニングは通常、数時間の高品質な音声データを必要とする。
本稿では,数分間の音声データを用いて,高品質な単一話者TSモデルを新しい話者に適用するための伝達学習ガイドラインを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:51:25Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Continual Speaker Adaptation for Text-to-Speech Synthesis [2.3224617218247126]
本稿では,連続学習の観点からのTSモデリングについて考察する。
目標は、以前のスピーカーを忘れずに新しいスピーカーを追加することです。
経験リプレイと重みの規則化という2つのよく知られた手法を連続学習に活用する。
論文 参考訳(メタデータ) (2021-03-26T15:14:20Z) - One Model, Many Languages: Meta-learning for Multilingual Text-to-Speech [3.42658286826597]
本稿では,文脈パラメータ生成のメタラーニング概念を用いた多言語音声合成手法を提案する。
本モデルでは,言語間で効率的に情報を共有できることが示され,主観的評価テストにより,ベースラインよりも自然な,正確なコードスイッチング音声を生成する。
論文 参考訳(メタデータ) (2020-08-03T10:43:30Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。