論文の概要: Combining speakers of multiple languages to improve quality of neural
voices
- arxiv url: http://arxiv.org/abs/2108.07737v1
- Date: Tue, 17 Aug 2021 16:14:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 13:10:59.431891
- Title: Combining speakers of multiple languages to improve quality of neural
voices
- Title(参考訳): 複数言語の話者の組み合わせによるニューラル音声の品質向上
- Authors: Javier Latorre, Charlotte Bailleul, Tuuli Morrill, Alistair Conkie,
Yannis Stylianou
- Abstract要約: 15の異なる地域をまたいだ8言語で30人の話者を用いた大規模実験の結果を報告する。
言語間の合成において、平均して生成された品質は、平均的なオピニオンスコアの観点から、ネイティブな単一話者モデルの80%ドル以内である。
- 参考スコア(独自算出の注目度): 21.417373542428617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore multiple architectures and training procedures for
developing a multi-speaker and multi-lingual neural TTS system with the goals
of a) improving the quality when the available data in the target language is
limited and b) enabling cross-lingual synthesis. We report results from a large
experiment using 30 speakers in 8 different languages across 15 different
locales. The system is trained on the same amount of data per speaker. Compared
to a single-speaker model, when the suggested system is fine tuned to a
speaker, it produces significantly better quality in most of the cases while it
only uses less than $40\%$ of the speaker's data used to build the
single-speaker model. In cross-lingual synthesis, on average, the generated
quality is within $80\%$ of native single-speaker models, in terms of Mean
Opinion Score.
- Abstract(参考訳): 本研究では,a)対象言語で利用可能なデータが制限されている場合の品質向上,b)言語間合成が可能な多言語・多言語ニューラルTSシステムを開発するための複数のアーキテクチャとトレーニング手順について検討する。
地域によって異なる8言語で30人の話者を用いた大規模実験の結果を報告する。
システムは、スピーカーごとに同じ量のデータに基づいて訓練される。
単一話者モデルと比較して、提案したシステムがスピーカーに微調整された場合、ほとんどの場合においてかなり良い品質が得られるが、単一話者モデルを構築するのに使用される話者のデータは40 %以下である。
言語間合成では、平均的な意見スコアの観点から、生成した品質は、ネイティブな単一話者モデルの80\%$以下である。
関連論文リスト
- A multi-speaker multi-lingual voice cloning system based on vits2 for limmits 2024 challenge [16.813582262700415]
この課題は,音声クローニング機能を備えた多言語多言語Indic Text-to-Speechシステムの構築である。
このシステムは、課題データを用いて訓練され、ターゲットスピーカー上で数発の音声クローンを行うための微調整が行われた。
論文 参考訳(メタデータ) (2024-06-22T10:49:36Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Multilingual Multiaccented Multispeaker TTS with RADTTS [21.234787964238645]
RADTTSに基づく多言語・多言語・多話者音声合成モデルを提案する。
7つのアクセントからなるオープンソースデータセットにおいて、任意の話者に対して合成アクセントを制御する能力を示す。
論文 参考訳(メタデータ) (2023-01-24T22:39:04Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。
提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文 参考訳(メタデータ) (2022-10-21T20:03:37Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。