Fugu-MT 論文翻訳(概要): MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and Accompanied Baseline

論文の概要: MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and Accompanied Baseline

arxiv url: http://arxiv.org/abs/2209.10848v1
Date: Thu, 22 Sep 2022 08:24:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-23 14:27:21.636537
Title: MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and Accompanied Baseline
Title（参考訳）: MnTTS:モンゴル語テキスト音声合成データセットと伴奏ベースライン
Authors: Yifan Hu, Pengkai Yin, Rui Liu, Feilong Bao and Guanglai Gao
Abstract要約: 本稿では,世界中の1000万人以上が話す低リソース言語であるモンゴル語のための高品質なオープンソーステキスト音声データセットについて紹介する。 MnTTSと名付けられたこのデータセットは、22歳のモンゴル人プロのアナウンサーが録音した約8時間分の音声記録で構成されている。これは、モンゴルのTSアプリケーションを促進するために、アカデミックと産業の両方で開発された最初の公開データセットである。
参考スコア（独自算出の注目度）: 16.95694149810552
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a high-quality open-source text-to-speech (TTS) synthesis dataset for Mongolian, a low-resource language spoken by over 10 million people worldwide. The dataset, named MnTTS, consists of about 8 hours of transcribed audio recordings spoken by a 22-year-old professional female Mongolian announcer. It is the first publicly available dataset developed to promote Mongolian TTS applications in both academia and industry. In this paper, we share our experience by describing the dataset development procedures and faced challenges. To demonstrate the reliability of our dataset, we built a powerful non-autoregressive baseline system based on FastSpeech2 model and HiFi-GAN vocoder, and evaluated it using the subjective mean opinion score (MOS) and real time factor (RTF) metrics. Evaluation results show that the powerful baseline system trained on our dataset achieves MOS above 4 and RTF about $3.30\times10^{-1}$, which makes it applicable for practical use. The dataset, training recipe, and pretrained TTS models are freely available \footnote{\label{github}\url{https://github.com/walker-hyf/MnTTS}}.
Abstract（参考訳）: 本稿では,世界中の1000万人以上が話す低リソース言語であるモンゴル語のための高品質なオープンソーステキスト音声合成データセットについて紹介する。 MnTTSと名付けられたこのデータセットは、22歳のモンゴル人プロのアナウンサーが録音した約8時間の音声記録で構成されている。これは、学界と産業の両方でモンゴルのttsアプリケーションを促進するために開発された最初の公開データセットである。本稿では,データセット開発手順を説明することによって経験を共有し,課題に直面する。データセットの信頼性を示すために、FastSpeech2モデルとHiFi-GANボコーダに基づく強力な非自己回帰ベースラインシステムを構築し、主観的平均世論スコア(MOS)とリアルタイム因子(RTF)メトリクスを用いて評価した。評価結果から,我々のデータセットでトレーニングした強力なベースラインシステムは,約3.30\times10^{-1}$のMOSを4以上,RTFを約3。データセット、トレーニングレシピ、事前トレーニングされたTSモデルは、自由に利用できる。

関連論文リスト

KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization [57.08591486199925]
本稿では,KIT の低リソーストラック IWSLT 2025 への提出について述べる。ケースドシステムとエンド・ツー・エンド(E2E)音声翻訳システムを開発した。事前訓練されたモデルに基づいて、リソースを効率的に活用するためのさまざまな戦略でシステムを微調整します。
論文参考訳（メタデータ） (2025-05-26T08:38:02Z)
Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTS [0.0]
本研究では,包括的バハサテキスト音声データセットと,新しいTSモデルであるEnGen-TTSを紹介する。提案したEnGen-TTSモデルは、確立されたベースラインよりも優れており、平均オピニオンスコア(MOS)は4.45$pm$ 0.13である。この研究はバハサ TTS 技術の進歩であり、多様な言語応用に影響を及ぼす。
論文参考訳（メタデータ） (2024-10-09T07:01:05Z)
SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。 SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文参考訳（メタデータ） (2024-09-18T23:17:02Z)
Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文参考訳（メタデータ） (2024-09-13T10:58:55Z)
IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS [0.9092013845117769]
IndicVoices-R (IV-R) は、ASRデータセットから派生したインド最大の多言語TSデータセットである。 IV-Rは、LJ、Speech LibriTTS、IndicTTSといったゴールドスタンダードのTSデータセットの品質と一致する。私たちは、22の公用語すべてを対象とした最初のTSモデルをリリースします。
論文参考訳（メタデータ） (2024-09-09T06:28:47Z)
BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data [15.447206120523356]
BASE TTSは、これまでで最大のTSモデルであり、パブリックドメインの音声データ100K時間で訓練されている。 10K以上の時間と500M以上のパラメータで構築されたBASE TTSの変種が、テキストに複雑な文に自然な韻律を呈示し始めることを示す。
論文参考訳（メタデータ） (2024-02-12T22:21:30Z)
Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文参考訳（メタデータ） (2023-01-30T00:53:50Z)
MnTTS2: An Open-Source Multi-Speaker Mongolian Text-to-Speech Synthesis Dataset [19.086710703808794]
モンゴル語は内モンゴル自治区の公用語であり、世界中の1000万人以上が話している低リソース言語の代表である。我々は、関連する研究者の利益のために、MnTTS2というオープンソースのマルチスピーカーTTSデータセットを公開している。本研究は,モンゴルのプロ3人のアナウンサーを招待し,各アナウンサーがモンゴル語で10時間のスピーチを録音し,合計30時間に及んだ3つのTTSデータセットを作成した。
論文参考訳（メタデータ） (2022-12-11T14:55:02Z)
Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文参考訳（メタデータ） (2022-11-11T20:21:38Z)
KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset [4.542831770689362]
本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットについて紹介する。このデータセットは、2人のプロの話者が話した約91時間の録音音声から成り立っている。これは、アカデミックと産業の両方で、カザフスタンのテキスト音声アプリケーションを促進するために開発された、初めて公開された大規模なデータセットである。
論文参考訳（メタデータ） (2021-04-17T05:49:57Z)
Facebook AI's WMT20 News Translation Task Submission [69.92594751788403]
本稿では、Facebook AIによるWMT20共有ニュース翻訳タスクの提出について述べる。資源設定の低さに着目し,タミル語-英語とイヌクティトゥット語-英語の2つの言語ペアに参加する。我々は、利用可能なデータをすべて活用し、ターゲットのニュースドメインにシステムを適用するという、2つの主要な戦略を用いて、低リソース問題にアプローチする。
論文参考訳（メタデータ） (2020-11-16T21:49:00Z)
A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文参考訳（メタデータ） (2020-04-07T04:09:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。