論文の概要: KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset
- arxiv url: http://arxiv.org/abs/2104.08459v1
- Date: Sat, 17 Apr 2021 05:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 05:01:30.855835
- Title: KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset
- Title(参考訳): KazakhTTS: オープンソースのKazakhテキスト音声合成データセット
- Authors: Saida Mussakhojayeva, Aigerim Janaliyeva, Almas Mirzakhmetov, Yerbolat
Khassanov, Huseyin Atakan Varol
- Abstract要約: 本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットについて紹介する。
このデータセットは、2人のプロの話者が話した約91時間の録音音声から成り立っている。
これは、アカデミックと産業の両方で、カザフスタンのテキスト音声アプリケーションを促進するために開発された、初めて公開された大規模なデータセットである。
- 参考スコア(独自算出の注目度): 4.542831770689362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a high-quality open-source speech synthesis dataset for
Kazakh, a low-resource language spoken by over 13 million people worldwide. The
dataset consists of about 91 hours of transcribed audio recordings spoken by
two professional speakers (female and male). It is the first publicly available
large-scale dataset developed to promote Kazakh text-to-speech (TTS)
applications in both academia and industry. In this paper, we share our
experience by describing the dataset development procedures and faced
challenges, and discuss important future directions. To demonstrate the
reliability of our dataset, we built baseline end-to-end TTS models and
evaluated them using the subjective mean opinion score (MOS) measure.
Evaluation results show that the best TTS models trained on our dataset achieve
MOS above 4 for both speakers, which makes them applicable for practical use.
The dataset, training recipe, and pretrained TTS models are freely available.
- Abstract(参考訳): 本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットを提案する。
このデータセットは、2人のプロのスピーカー(女性と男性)が話す約91時間の録音音声から成り立っている。
Kazakh text-to-speech(TTS)アプリケーションをアカデミックと産業の両方で促進するために開発された、初めて公開された大規模なデータセットである。
本稿では,データセット開発手順を説明し,課題に直面する経験を共有し,今後の重要な方向性について議論する。
データセットの信頼性を示すため、ベースラインのエンドツーエンドTSモデルを構築し、主観的平均世論スコア(MOS)を用いて評価した。
評価の結果、データセットでトレーニングされた最良のttsモデルは、両方の話者に対して4以上のmosを達成し、実用的に適用できることがわかった。
データセット、トレーニングレシピ、事前トレーニングされたTSモデルは無料で利用できる。
関連論文リスト
- Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTS [0.0]
本研究では,包括的バハサテキスト音声データセットと,新しいTSモデルであるEnGen-TTSを紹介する。
提案したEnGen-TTSモデルは、確立されたベースラインよりも優れており、平均オピニオンスコア(MOS)は4.45$pm$ 0.13である。
この研究はバハサ TTS 技術の進歩であり、多様な言語応用に影響を及ぼす。
論文 参考訳(メタデータ) (2024-10-09T07:01:05Z) - SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - IndicVoices-R: Unlocking a Massive Multilingual Multi-speaker Speech Corpus for Scaling Indian TTS [0.9092013845117769]
IndicVoices-R (IV-R) は、ASRデータセットから派生したインド最大の多言語TSデータセットである。
IV-Rは、LJ、Speech LibriTTS、IndicTTSといったゴールドスタンダードのTSデータセットの品質と一致する。
私たちは、22の公用語すべてを対象とした最初のTSモデルをリリースします。
論文 参考訳(メタデータ) (2024-09-09T06:28:47Z) - Towards Zero-Shot Text-To-Speech for Arabic Dialects [16.10882912169842]
ZS-TTS (Zero-shot Multi-Speaker text-to-speech) システムは英語に進歩しているが、リソース不足のためまだ遅れている。
まず、既存のデータセットを音声合成のニーズに合わせて適応させることにより、アラビア語のこのギャップに対処する。
アラビア語の方言識別モデルを用いて、予め定義された方言ラベルが多言語環境でのZS-TTSモデルの改善に与える影響を探索する。
論文 参考訳(メタデータ) (2024-06-24T15:58:15Z) - ArmanTTS single-speaker Persian dataset [2.7836084563851284]
本稿では,単一話者データセットArmanTTSを紹介する。
ArmanTTSはペルシア語のテキスト音声変換モデルを教えるために必要な標準を満たしていることを示す。
また,Tacotron 2 と HiFi GAN を組み合わせて,音素を入力として受信可能なモデルの設計を行い,その出力を対応する音声とする。
論文 参考訳(メタデータ) (2023-04-07T10:52:55Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and
Accompanied Baseline [16.95694149810552]
本稿では,世界中の1000万人以上が話す低リソース言語であるモンゴル語のための高品質なオープンソーステキスト音声データセットについて紹介する。
MnTTSと名付けられたこのデータセットは、22歳のモンゴル人プロのアナウンサーが録音した約8時間分の音声記録で構成されている。
これは、モンゴルのTSアプリケーションを促進するために、アカデミックと産業の両方で開発された最初の公開データセットである。
論文 参考訳(メタデータ) (2022-09-22T08:24:43Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural
Text-to-Speech Synthesis [50.236929707024245]
SOMOSデータセットは、単にニューラルテキスト音声(TTS)サンプルからなる最初の大規模平均世論スコア(MOS)データセットである。
パブリックドメイン音声データセットであるLJ音声の合成発話20Kから成っている。
論文 参考訳(メタデータ) (2022-04-06T18:45:20Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。