論文の概要: KazakhTTS2: Extending the Open-Source Kazakh TTS Corpus With More Data,
Speakers, and Topics
- arxiv url: http://arxiv.org/abs/2201.05771v1
- Date: Sat, 15 Jan 2022 06:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 14:04:06.771047
- Title: KazakhTTS2: Extending the Open-Source Kazakh TTS Corpus With More Data,
Speakers, and Topics
- Title(参考訳): KazakhTTS2: より多くのデータ、講演者、トピックでオープンソースのKazakh TTSコーパスを拡張する
- Authors: Saida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol
- Abstract要約: 我々は、以前リリースした Kazakh text-to-speech (KazakhTTS) 合成コーパスの拡張版を提示する。
新しいKazakhTTS2コーパスでは、全体的なサイズは93時間から271時間に向上した。
講演者の数は2人から5人(女性3人、男性2人)に増えた。
- 参考スコア(独自算出の注目度): 4.859986264602551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an expanded version of our previously released Kazakh
text-to-speech (KazakhTTS) synthesis corpus. In the new KazakhTTS2 corpus, the
overall size is increased from 93 hours to 271 hours, the number of speakers
has risen from two to five (three females and two males), and the topic
coverage is diversified with the help of new sources, including a book and
Wikipedia articles. This corpus is necessary for building high-quality TTS
systems for Kazakh, a Central Asian agglutinative language from the Turkic
family, which presents several linguistic challenges. We describe the corpus
construction process and provide the details of the training and evaluation
procedures for the TTS system. Our experimental results indicate that the
constructed corpus is sufficient to build robust TTS models for real-world
applications, with a subjective mean opinion score of above 4.0 for all the
five speakers. We believe that our corpus will facilitate speech and language
research for Kazakh and other Turkic languages, which are widely considered to
be low-resource due to the limited availability of free linguistic data. The
constructed corpus, code, and pretrained models are publicly available in our
GitHub repository.
- Abstract(参考訳): 我々は、以前リリースした Kazakh text-to-speech (KazakhTTS) 合成コーパスの拡張版を示す。
新しいKazakhTTS2コーパスでは、全体的なサイズが93時間から271時間に増加し、話者数は2人から5人(女性3人、男性2人)に増加し、本やウィキペディアの記事を含む新しい情報源の助けを借りて、トピックのカバレッジが多様化している。
このコーパスは、トルコ語族による中央アジアの凝集言語であるカザフ語のための高品質なTSシステムを構築するために必要である。
本稿では, コーパス構築プロセスについて述べるとともに, TTSシステムのトレーニングおよび評価手順の詳細について述べる。
実験の結果,構築したコーパスは実世界のアプリケーションで頑健なttsモデルを構築するのに十分であり,主観的平均評価スコアは5人全員で4.0以上であった。
我々のコーパスは、カザフ語や他のテュルク諸語について、言論研究や言語研究が促進されると信じている。
構築されたコーパス、コード、事前訓練されたモデルは、GitHubリポジトリで公開されています。
関連論文リスト
- SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - Multilingual Text-to-Speech Synthesis for Turkic Languages Using
Transliteration [3.0122461286351796]
本研究の目的は,低リソースのトルコ語10言語を対象とした多言語テキスト音声合成システムの構築である。
ゼロショット学習のシナリオを特に対象とし、ある言語のデータを用いて訓練されたTSモデルを他の未知言語のための音声合成に適用する。
Tacotron 2 アーキテクチャに基づくエンドツーエンド TTS システムは、カザフ語で利用可能なデータのみを用いて訓練された。
論文 参考訳(メタデータ) (2023-05-25T05:57:54Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Kosp2e: Korean Speech to English Translation Corpus [11.44330742875498]
韓国語音声をエンドツーエンドで英文に翻訳するコーパスであるkosp2eを紹介する。
我々は,オープンライセンス音声認識コーパス,翻訳コーパス,音声言語コーパスを採用して,データセットを一般公開する。
論文 参考訳(メタデータ) (2021-07-06T20:34:06Z) - KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset [4.542831770689362]
本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットについて紹介する。
このデータセットは、2人のプロの話者が話した約91時間の録音音声から成り立っている。
これは、アカデミックと産業の両方で、カザフスタンのテキスト音声アプリケーションを促進するために開発された、初めて公開された大規模なデータセットである。
論文 参考訳(メタデータ) (2021-04-17T05:49:57Z) - Large-Scale Self- and Semi-Supervised Learning for Speech Translation [48.06478781295623]
大規模なLibri-Light音声コーパスとCommonCrawlを用いた言語モデリングを用いて,事前学習と自己学習の両方について検討する。
私たちの実験は、CoVoST 2言語ペアの4つすべてで平均2.6 BLEUで以前の状態よりも改善されました。
論文 参考訳(メタデータ) (2021-04-14T07:44:52Z) - A Crowdsourced Open-Source Kazakh Speech Corpus and Initial Speech
Recognition Baseline [4.521450956414864]
カザフ語コーパス(KSC)は、様々な地域や年齢集団の参加者によって話される153,000以上の発声を含む約332時間の音声を含む。
KSCは、様々なカザフ語音声および言語処理アプリケーションを前進させるために開発された、最大の公開データベースである。
論文 参考訳(メタデータ) (2020-09-22T05:57:15Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。