論文の概要: ÌròyìnSpeech: A multi-purpose Yorùbá Speech Corpus
- arxiv url: http://arxiv.org/abs/2307.16071v2
- Date: Wed, 27 Mar 2024 08:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 23:12:22.195383
- Title: ÌròyìnSpeech: A multi-purpose Yorùbá Speech Corpus
- Title(参考訳): 多目的ヨルバ音声コーパス
- Authors: Tolulope Ogunremi, Kola Tubosun, Anuoluwapo Aremu, Iroro Orife, David Ifeoluwa Adelani,
- Abstract要約: IroyinSpeechは、高品質で現代のヨルブの音声データの量を増やしたいという願望に影響された新しいコーパスである。
オープン・ライセンスCC-BY-4.0でニュース・クリエイティブ・ライティング・ドメインから約23,000のテキストをキュレートした。
- 参考スコア(独自算出の注目度): 7.97238074132292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce \`{I}r\`{o}y\`{i}nSpeech, a new corpus influenced by the desire to increase the amount of high quality, contemporary Yor\`{u}b\'{a} speech data, which can be used for both Text-to-Speech (TTS) and Automatic Speech Recognition (ASR) tasks. We curated about 23000 text sentences from news and creative writing domains with the open license CC-BY-4.0. To encourage a participatory approach to data creation, we provide 5000 curated sentences to the Mozilla Common Voice platform to crowd-source the recording and validation of Yor\`{u}b\'{a} speech data. In total, we created about 42 hours of speech data recorded by 80 volunteers in-house, and 6 hours of validated recordings on Mozilla Common Voice platform. Our TTS evaluation suggests that a high-fidelity, general domain, single-speaker Yor\`{u}b\'{a} voice is possible with as little as 5 hours of speech. Similarly, for ASR we obtained a baseline word error rate (WER) of 23.8.
- Abstract(参考訳): 高品質なYor\`{u}b\'{a}音声データに影響を及ぼす新しいコーパスである ‘`{I}r\`{o}y\`{i}nSpeech を導入する。
オープン・ライセンスCC-BY-4.0でニュース・クリエイティブ・ライティング・ドメインから約23,000のテキストをキュレートした。
データ作成への参加的アプローチを促進するために、Yor\`{u}b\'{a} 音声データの録音と検証をクラウドソースするために、5000のキュレートされた文をMozilla Common Voiceプラットフォームに提供します。
合計して、80人のボランティアが社内で記録した約42時間の音声データと、Mozilla Common Voiceプラットフォーム上で検証された6時間の録音を作成しました。
TTSの評価は,高忠実で汎用的な単一話者Yor\`{u}b\'{a}音声が5時間以内の音声で可能であることを示唆している。
同様に、ASRでは23.8のベースライン単語誤り率(WER)を得た。
関連論文リスト
- EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - IMaSC -- ICFOSS Malayalam Speech Corpus [0.0]
約50時間の音声を含むマラヤラム語テキストと音声コーパスであるIMaSCについて述べる。
8つのスピーカーと合計34,473のテキストオーディオペアを持つIMaSCは、他のすべてのパブリックな代替品よりも大きい。
以上の結果から,我々のモデルでは,従来の研究や公開モデルに比べて自然度が有意に向上し,平均世論スコアは4.50であることがわかった。
論文 参考訳(メタデータ) (2022-11-23T09:21:01Z) - Maestro-U: Leveraging joint speech-text representation learning for zero
supervised speech ASR [39.59611707268663]
モーダリティマッチングされた共同音声とテキストモデルを用いて、言語によっては教師付き音声を使わずに、膨大な多言語ASRモデルを訓練できることを示す。
Maestro-Uは,グラフの重なりに制限がある場合にも,教師付き音声言語からの知識伝達を促進することができることを示す。
論文 参考訳(メタデータ) (2022-10-18T17:50:31Z) - RyanSpeech: A Corpus for Conversational Text-to-Speech Synthesis [3.6406488220483317]
RyanSpeechは、自動音声合成(TTS)システムの研究のための新しい音声コーパスである。
44.1kHzで録音されたプロの男性声優のスピーチの10時間以上が含まれている。
論文 参考訳(メタデータ) (2021-06-15T22:24:38Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。