論文の概要: BibleTTS: a large, high-fidelity, multilingual, and uniquely African
speech corpus
- arxiv url: http://arxiv.org/abs/2207.03546v1
- Date: Thu, 7 Jul 2022 19:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 09:37:22.534983
- Title: BibleTTS: a large, high-fidelity, multilingual, and uniquely African
speech corpus
- Title(参考訳): BibleTTS:大きく、高忠実で、多言語で、独特なアフリカの音声コーパス
- Authors: Josh Meyer, David Ifeoluwa Adelani, Edresson Casanova, Alp \"Oktem,
Daniel Whitenack Julian Weber, Salomon Kabongo, Elizabeth Salesky, Iroro
Orife, Colin Leong, Perez Ogayo, Chris Emezue, Jonathan Mukiibi, Salomey
Osei, Apelete Agbolo, Victor Akinode, Bernard Opoku, Samuel Olanrewaju,
Jesujoba Alabi, Shamsuddeen Muhammad
- Abstract要約: BibleTTSは、サハラ以南のアフリカで話されている10の言語のための、大規模で高品質でオープンな音声データセットである。
コーパスは最大86時間、スタジオ品質48kHzのシングルスピーカーを言語ごとに記録する。
- 参考スコア(独自算出の注目度): 7.050790497916012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BibleTTS is a large, high-quality, open speech dataset for ten languages
spoken in Sub-Saharan Africa. The corpus contains up to 86 hours of aligned,
studio quality 48kHz single speaker recordings per language, enabling the
development of high-quality text-to-speech models. The ten languages
represented are: Akuapem Twi, Asante Twi, Chichewa, Ewe, Hausa, Kikuyu,
Lingala, Luganda, Luo, and Yoruba. This corpus is a derivative work of Bible
recordings made and released by the Open.Bible project from Biblica. We have
aligned, cleaned, and filtered the original recordings, and additionally
hand-checked a subset of the alignments for each language. We present results
for text-to-speech models with Coqui TTS. The data is released under a
commercial-friendly CC-BY-SA license.
- Abstract(参考訳): BibleTTSは、サハラ以南のアフリカで話されている10の言語のための、大規模で高品質でオープンな音声データセットである。
コーパスは、最大86時間、スタジオ品質48kHzの1言語毎のシングルスピーカー記録を含んでおり、高品質なテキスト音声合成モデルの開発を可能にしている。
Akuapem Twi, Asante Twi, Chichewa, Ewe, Hausa, Kikuyu, Lingala, Luganda, Luo, Yorubaの10言語が表現されている。
このコーパスは、ビブリカのOpen.Bibleプロジェクトによって制作・リリースされた聖書録音の派生作品である。
私たちは、オリジナルの録音を整理、フィルタリングし、さらに各言語のアライメントのサブセットを手作業でチェックしました。
本稿では,Coqui TTSを用いた音声合成モデルについて述べる。
データはCC-BY-SAライセンスで公開されている。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages [20.25236081418051]
Zambezi Voiceはザンビア語のためのオープンソースの多言語音声リソースである。
我々の知る限り、ザンビア語で作成された最初の多言語音声データセットである。
論文 参考訳(メタデータ) (2023-06-07T13:36:37Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus [3.1925030748447747]
本稿では,古典アラビア語テキスト・トゥ・スペーチ(ClArTTS)のための音声コーパスについて述べる。
音声は、LibriVoxオーディオブックから抽出され、処理され、セグメンテーションされ、手動で書き起こされ、注釈付けされる。
最後のClArTTSコーパスは、40100kHzでサンプリングされた1人の男性スピーカーから約12時間の音声を含む。
論文 参考訳(メタデータ) (2023-02-28T20:18:59Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Jira: a Kurdish Speech Recognition System Designing and Building Speech
Corpus and Pronunciation Lexicon [4.226093500082746]
中央クルド語のための最初の大規模な語彙音声認識システム(LVSR)、Jiraを紹介します。
クルド語(クルド語)は、複数の国で3000万人以上が話しているインド・ヨーロッパ語である。
音声コーパスについて、我々は、コレクション内のダイフォンの比率が中央クルド語の実際のデータに似ている文集を設計しました。
11の異なる文書トピックを含むテストセットは、2つの対応する音声条件で設計および記録される。
論文 参考訳(メタデータ) (2021-02-15T09:27:54Z) - MLS: A Large-Scale Multilingual Dataset for Speech Research [37.803100082550294]
データセットは、LibriVoxの読み出しオーディオブックに由来する。
英語の約44.5K時間と、他の言語で約6K時間を含む8つの言語で構成されている。
論文 参考訳(メタデータ) (2020-12-07T01:53:45Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。