論文の概要: \`{I}r\`{o}y\`{i}nSpeech: A multi-purpose Yor\`{u}b\'{a} Speech Corpus
- arxiv url: http://arxiv.org/abs/2307.16071v1
- Date: Sat, 29 Jul 2023 20:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:45:31.138675
- Title: \`{I}r\`{o}y\`{i}nSpeech: A multi-purpose Yor\`{u}b\'{a} Speech Corpus
- Title(参考訳): i}r\`{o}y\`{i}nspeech:多目的yor\`{u}b\'{a}音声コーパス
- Authors: Tolulope Ogunremi, Kola Tubosun, Anuoluwapo Aremu, Iroro Orife, David
Ifeoluwa Adelani
- Abstract要約: IroyinSpeech corpusは、高品質で自由に利用できる、現代のヨルバのスピーチの量を増やしたいという願望に影響された新しいデータセットである。
データセットには合計38.5時間のデータがあり、80人のボランティアが記録している。
- 参考スコア(独自算出の注目度): 2.3711621915578136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the \`{I}r\`{o}y\`{i}nSpeech corpus -- a new dataset influenced
by a desire to increase the amount of high quality, freely available,
contemporary Yor\`{u}b\'{a} speech. We release a multi-purpose dataset that can
be used for both TTS and ASR tasks. We curated text sentences from the news and
creative writing domains under an open license i.e., CC-BY-4.0 and had multiple
speakers record each sentence. We provide 5000 of our utterances to the Common
Voice platform to crowdsource transcriptions online. The dataset has 38.5 hours
of data in total, recorded by 80 volunteers.
- Abstract(参考訳): 高品質で自由に利用できるYor\`{u}b\'{a} 音声の量を増やしたいという欲求に影響された新しいデータセットである \`{I}r\`{o}y\`{i}nSpeech corpus を導入する。
我々は、TSタスクとASRタスクの両方に使用できる多目的データセットをリリースする。
オープンライセンス(cc-by-4.0)の下でニュース・クリエイティブ・ライティング・ドメインからテキスト文をキュレートし,複数の話者が各文を記録させた。
われわれの5000通の音声をCommon Voiceプラットフォームに提供し、オンラインで書き起こしをクラウドソースしています。
データセットには合計38.5時間のデータがあり、80人のボランティアが記録している。
関連論文リスト
- IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - IMaSC -- ICFOSS Malayalam Speech Corpus [0.0]
約50時間の音声を含むマラヤラム語テキストと音声コーパスであるIMaSCについて述べる。
8つのスピーカーと合計34,473のテキストオーディオペアを持つIMaSCは、他のすべてのパブリックな代替品よりも大きい。
以上の結果から,我々のモデルでは,従来の研究や公開モデルに比べて自然度が有意に向上し,平均世論スコアは4.50であることがわかった。
論文 参考訳(メタデータ) (2022-11-23T09:21:01Z) - Maestro-U: Leveraging joint speech-text representation learning for zero
supervised speech ASR [39.59611707268663]
モーダリティマッチングされた共同音声とテキストモデルを用いて、言語によっては教師付き音声を使わずに、膨大な多言語ASRモデルを訓練できることを示す。
Maestro-Uは,グラフの重なりに制限がある場合にも,教師付き音声言語からの知識伝達を促進することができることを示す。
論文 参考訳(メタデータ) (2022-10-18T17:50:31Z) - RyanSpeech: A Corpus for Conversational Text-to-Speech Synthesis [3.6406488220483317]
RyanSpeechは、自動音声合成(TTS)システムの研究のための新しい音声コーパスである。
44.1kHzで録音されたプロの男性声優のスピーチの10時間以上が含まれている。
論文 参考訳(メタデータ) (2021-06-15T22:24:38Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。