論文の概要: MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and
Accompanied Baseline
- arxiv url: http://arxiv.org/abs/2209.10848v1
- Date: Thu, 22 Sep 2022 08:24:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:27:21.636537
- Title: MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and
Accompanied Baseline
- Title(参考訳): MnTTS:モンゴル語テキスト音声合成データセットと伴奏ベースライン
- Authors: Yifan Hu, Pengkai Yin, Rui Liu, Feilong Bao and Guanglai Gao
- Abstract要約: 本稿では,世界中の1000万人以上が話す低リソース言語であるモンゴル語のための高品質なオープンソーステキスト音声データセットについて紹介する。
MnTTSと名付けられたこのデータセットは、22歳のモンゴル人プロのアナウンサーが録音した約8時間分の音声記録で構成されている。
これは、モンゴルのTSアプリケーションを促進するために、アカデミックと産業の両方で開発された最初の公開データセットである。
- 参考スコア(独自算出の注目度): 16.95694149810552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a high-quality open-source text-to-speech (TTS)
synthesis dataset for Mongolian, a low-resource language spoken by over 10
million people worldwide. The dataset, named MnTTS, consists of about 8 hours
of transcribed audio recordings spoken by a 22-year-old professional female
Mongolian announcer. It is the first publicly available dataset developed to
promote Mongolian TTS applications in both academia and industry. In this
paper, we share our experience by describing the dataset development procedures
and faced challenges. To demonstrate the reliability of our dataset, we built a
powerful non-autoregressive baseline system based on FastSpeech2 model and
HiFi-GAN vocoder, and evaluated it using the subjective mean opinion score
(MOS) and real time factor (RTF) metrics. Evaluation results show that the
powerful baseline system trained on our dataset achieves MOS above 4 and RTF
about $3.30\times10^{-1}$, which makes it applicable for practical use. The
dataset, training recipe, and pretrained TTS models are freely available
\footnote{\label{github}\url{https://github.com/walker-hyf/MnTTS}}.
- Abstract(参考訳): 本稿では,世界中の1000万人以上が話す低リソース言語であるモンゴル語のための高品質なオープンソーステキスト音声合成データセットについて紹介する。
MnTTSと名付けられたこのデータセットは、22歳のモンゴル人プロのアナウンサーが録音した約8時間の音声記録で構成されている。
これは、学界と産業の両方でモンゴルのttsアプリケーションを促進するために開発された最初の公開データセットである。
本稿では,データセット開発手順を説明することによって経験を共有し,課題に直面する。
データセットの信頼性を示すために、FastSpeech2モデルとHiFi-GANボコーダに基づく強力な非自己回帰ベースラインシステムを構築し、主観的平均世論スコア(MOS)とリアルタイム因子(RTF)メトリクスを用いて評価した。
評価結果から,我々のデータセットでトレーニングした強力なベースラインシステムは,約3.30\times10^{-1}$のMOSを4以上,RTFを約3。
データセット、トレーニングレシピ、事前トレーニングされたTSモデルは、自由に利用できる。
関連論文リスト
- Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTS [0.0]
本研究では,包括的バハサテキスト音声データセットと,新しいTSモデルであるEnGen-TTSを紹介する。
提案したEnGen-TTSモデルは、確立されたベースラインよりも優れており、平均オピニオンスコア(MOS)は4.45$pm$ 0.13である。
この研究はバハサ TTS 技術の進歩であり、多様な言語応用に影響を及ぼす。
論文 参考訳(メタデータ) (2024-10-09T07:01:05Z) - SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS [0.9092013845117769]
IndicVoices-R (IV-R) は、ASRデータセットから派生したインド最大の多言語TSデータセットである。
IV-Rは、LJ、Speech LibriTTS、IndicTTSといったゴールドスタンダードのTSデータセットの品質と一致する。
私たちは、22の公用語すべてを対象とした最初のTSモデルをリリースします。
論文 参考訳(メタデータ) (2024-09-09T06:28:47Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - MnTTS2: An Open-Source Multi-Speaker Mongolian Text-to-Speech Synthesis
Dataset [19.086710703808794]
モンゴル語は内モンゴル自治区の公用語であり、世界中の1000万人以上が話している低リソース言語の代表である。
我々は、関連する研究者の利益のために、MnTTS2というオープンソースのマルチスピーカーTTSデータセットを公開している。
本研究は,モンゴルのプロ3人のアナウンサーを招待し,各アナウンサーがモンゴル語で10時間のスピーチを録音し,合計30時間に及んだ3つのTTSデータセットを作成した。
論文 参考訳(メタデータ) (2022-12-11T14:55:02Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset [4.542831770689362]
本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットについて紹介する。
このデータセットは、2人のプロの話者が話した約91時間の録音音声から成り立っている。
これは、アカデミックと産業の両方で、カザフスタンのテキスト音声アプリケーションを促進するために開発された、初めて公開された大規模なデータセットである。
論文 参考訳(メタデータ) (2021-04-17T05:49:57Z) - Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。
資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。
我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文 参考訳(メタデータ) (2020-11-16T21:49:00Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。