論文の概要: MnTTS2: An Open-Source Multi-Speaker Mongolian Text-to-Speech Synthesis
Dataset
- arxiv url: http://arxiv.org/abs/2301.00657v1
- Date: Sun, 11 Dec 2022 14:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 13:48:13.605972
- Title: MnTTS2: An Open-Source Multi-Speaker Mongolian Text-to-Speech Synthesis
Dataset
- Title(参考訳): MnTTS2:モンゴル語テキスト音声合成データセット
- Authors: Kailin Liang, Bin Liu, Yifan Hu, Rui Liu, Feilong Bao, Guanglai Gao
- Abstract要約: モンゴル語は内モンゴル自治区の公用語であり、世界中の1000万人以上が話している低リソース言語の代表である。
我々は、関連する研究者の利益のために、MnTTS2というオープンソースのマルチスピーカーTTSデータセットを公開している。
本研究は,モンゴルのプロ3人のアナウンサーを招待し,各アナウンサーがモンゴル語で10時間のスピーチを録音し,合計30時間に及んだ3つのTTSデータセットを作成した。
- 参考スコア(独自算出の注目度): 19.086710703808794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Speech (TTS) synthesis for low-resource languages is an attractive
research issue in academia and industry nowadays. Mongolian is the official
language of the Inner Mongolia Autonomous Region and a representative
low-resource language spoken by over 10 million people worldwide. However,
there is a relative lack of open-source datasets for Mongolian TTS. Therefore,
we make public an open-source multi-speaker Mongolian TTS dataset, named
MnTTS2, for the benefit of related researchers. In this work, we prepare the
transcription from various topics and invite three professional Mongolian
announcers to form a three-speaker TTS dataset, in which each announcer records
10 hours of speeches in Mongolian, resulting 30 hours in total. Furthermore, we
build the baseline system based on the state-of-the-art FastSpeech2 model and
HiFi-GAN vocoder. The experimental results suggest that the constructed MnTTS2
dataset is sufficient to build robust multi-speaker TTS models for real-world
applications. The MnTTS2 dataset, training recipe, and pretrained models are
released at: \url{https://github.com/ssmlkl/MnTTS2}
- Abstract(参考訳): 低リソース言語のためのテキスト音声合成(TTS)は、近年の学術・産業において魅力的な研究課題である。
モンゴル語は内モンゴル自治区の公用語であり、世界中の1000万人以上が話している低リソース言語の代表である。
しかし、モンゴルのTSのためのオープンソースデータセットが比較的不足している。
そこで我々は,mntts2という,モンゴルのマルチスピーカーttsデータセットをオープンソースとして公開する。
本研究では,様々な話題の書き起こしを準備し,3名のモンゴル人アナウンサーを招き,各アナウンサーがモンゴル語で10時間のスピーチを収録し,合計30時間のttsデータセットを作成する。
さらに,最先端のfastspeech2モデルとhifi-gan vocoderに基づくベースラインシステムを構築する。
実験結果から, MnTTS2データセットは実世界のアプリケーションのための堅牢なマルチスピーカTSモデルを構築するのに十分であることが示唆された。
MnTTS2データセット、トレーニングレシピ、事前訓練されたモデルは、以下の通りリリースされる。
関連論文リスト
- SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - CML-TTS A Multilingual Dataset for Speech Synthesis in Low-Resource
Languages [0.769672852567215]
CML-TTSは、ゴイアス連邦大学(UFG)のCEIA(Center of Excellence in Artificial Intelligence)で開発された新しいテキスト音声データセットである。
CML-TTSはMultilingual LibriSpeech (MLS)をベースとしており、オランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、ポーランド語、スペイン語のオーディオブックからなるTSSモデルの訓練に適応している。
CML-TTSから3,176.13時間、LibriTTSから245.07時間でトレーニングされた多言語TSモデルであるYourTTSモデルを提供する。
論文 参考訳(メタデータ) (2023-06-16T17:17:06Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low
Resource Setting [16.37243395952266]
MParrotTTSは、TTS合成モデルである。
最小限の教師付きデータを持つ新しい言語に適応し、自己教師付きバックボーンのトレーニング中に見えない言語に一般化する。
音声の自然度と話者類似度を並列・言語間合成における6言語について検討した。
論文 参考訳(メタデータ) (2023-05-19T13:43:36Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and
Accompanied Baseline [16.95694149810552]
本稿では,世界中の1000万人以上が話す低リソース言語であるモンゴル語のための高品質なオープンソーステキスト音声データセットについて紹介する。
MnTTSと名付けられたこのデータセットは、22歳のモンゴル人プロのアナウンサーが録音した約8時間分の音声記録で構成されている。
これは、モンゴルのTSアプリケーションを促進するために、アカデミックと産業の両方で開発された最初の公開データセットである。
論文 参考訳(メタデータ) (2022-09-22T08:24:43Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset [4.542831770689362]
本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットについて紹介する。
このデータセットは、2人のプロの話者が話した約91時間の録音音声から成り立っている。
これは、アカデミックと産業の両方で、カザフスタンのテキスト音声アプリケーションを促進するために開発された、初めて公開された大規模なデータセットである。
論文 参考訳(メタデータ) (2021-04-17T05:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。