論文の概要: CML-TTS A Multilingual Dataset for Speech Synthesis in Low-Resource
Languages
- arxiv url: http://arxiv.org/abs/2306.10097v1
- Date: Fri, 16 Jun 2023 17:17:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 00:13:34.196317
- Title: CML-TTS A Multilingual Dataset for Speech Synthesis in Low-Resource
Languages
- Title(参考訳): 低音源言語における音声合成のための多言語データセットCML-TTS
- Authors: Frederico S. Oliveira, Edresson Casanova, Arnaldo C\^andido J\'unior,
Anderson S. Soares, and Arlindo R. Galv\~ao Filho
- Abstract要約: CML-TTSは、ゴイアス連邦大学(UFG)のCEIA(Center of Excellence in Artificial Intelligence)で開発された新しいテキスト音声データセットである。
CML-TTSはMultilingual LibriSpeech (MLS)をベースとしており、オランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、ポーランド語、スペイン語のオーディオブックからなるTSSモデルの訓練に適応している。
CML-TTSから3,176.13時間、LibriTTSから245.07時間でトレーニングされた多言語TSモデルであるYourTTSモデルを提供する。
- 参考スコア(独自算出の注目度): 0.769672852567215
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we present CML-TTS, a recursive acronym for
CML-Multi-Lingual-TTS, a new Text-to-Speech (TTS) dataset developed at the
Center of Excellence in Artificial Intelligence (CEIA) of the Federal
University of Goias (UFG). CML-TTS is based on Multilingual LibriSpeech (MLS)
and adapted for training TTS models, consisting of audiobooks in seven
languages: Dutch, French, German, Italian, Portuguese, Polish, and Spanish.
Additionally, we provide the YourTTS model, a multi-lingual TTS model, trained
using 3,176.13 hours from CML-TTS and also with 245.07 hours from LibriTTS, in
English. Our purpose in creating this dataset is to open up new research
possibilities in the TTS area for multi-lingual models. The dataset is publicly
available under the CC-BY 4.0 license1.
- Abstract(参考訳): 本稿では,連邦大学ゴイアス校(UFG)の人工知能センター(CEIA)で開発された新しいテキスト音声データセットであるCML-Multi-Lingual-TTSの帰納的頭字語であるCML-TTSを提案する。
CML-TTSはMultilingual LibriSpeech (MLS)をベースとし、オランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、ポーランド語、スペイン語のオーディオブックからなるTSSモデルの訓練に適応している。
さらに、CML-TTSから3,176.13時間、LibriTTSから245.07時間でトレーニングされた多言語TSモデルであるYourTTSモデルを提供する。
このデータセットを作成する目的は、多言語モデルのTS領域に新たな研究可能性を開くことである。
データセットはCC-BY 4.0ライセンス1で公開されている。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - HLTCOE at TREC 2023 NeuCLIR Track [10.223578525761617]
HLTチームはPLAID、mT5リランカー、文書翻訳をTREC 2023 NeuCLIRトラックに適用した。
PLAIDには、ColBERT v2でリリースされた英語モデル、Translate-train(TT)、Translate Distill(TD)、Translate Multilingual-train(MTT)など、さまざまなモデルとトレーニングテクニックが含まれていました。
論文 参考訳(メタデータ) (2024-04-11T20:46:18Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - MnTTS2: An Open-Source Multi-Speaker Mongolian Text-to-Speech Synthesis
Dataset [19.086710703808794]
モンゴル語は内モンゴル自治区の公用語であり、世界中の1000万人以上が話している低リソース言語の代表である。
我々は、関連する研究者の利益のために、MnTTS2というオープンソースのマルチスピーカーTTSデータセットを公開している。
本研究は,モンゴルのプロ3人のアナウンサーを招待し,各アナウンサーがモンゴル語で10時間のスピーチを録音し,合計30時間に及んだ3つのTTSデータセットを作成した。
論文 参考訳(メタデータ) (2022-12-11T14:55:02Z) - Virtuoso: Massive Multilingual Speech-Text Joint Semi-Supervised
Learning for Text-To-Speech [37.942466944970704]
本稿では,テキスト音声合成(TTS)モデルのための多言語共同学習フレームワークであるVirtuosoを提案する。
様々な音声およびテキストデータからTSモデルをトレーニングするために、教師なし(TTSおよびASRデータ)と教師なし(非教師なし)のデータセットを扱うように、異なるトレーニングスキームが設計されている。
実験により、Virtuosoで訓練された多言語TSモデルは、見かけの言語におけるベースラインモデルよりも、自然性や知性に優れることが示された。
論文 参考訳(メタデータ) (2022-10-27T14:09:48Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - MLS: A Large-Scale Multilingual Dataset for Speech Research [37.803100082550294]
データセットは、LibriVoxの読み出しオーディオブックに由来する。
英語の約44.5K時間と、他の言語で約6K時間を含む8つの言語で構成されている。
論文 参考訳(メタデータ) (2020-12-07T01:53:45Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。