論文の概要: The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic
Speech Recognition
- arxiv url: http://arxiv.org/abs/2206.09790v1
- Date: Mon, 20 Jun 2022 14:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 18:45:36.901209
- Title: The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic
Speech Recognition
- Title(参考訳): makerere radio speech corpus:自動音声認識のためのluganda radio corpus
- Authors: Jonathan Mukiibi, Andrew Katumba, Joyce Nakatumba-Nabende, Ali
Hussein, Josh Meyer
- Abstract要約: Makerere人工知能研究所は、ルガンダの音声コーパスを155時間リリースした。
これはサハラ以南のアフリカで最初の公開無線データセットである。
我々の知る限り、これはサハラ以南のアフリカで初めて公開されている電波データセットである。
- 参考スコア(独自算出の注目度): 1.089334659959217
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building a usable radio monitoring automatic speech recognition (ASR) system
is a challenging task for under-resourced languages and yet this is paramount
in societies where radio is the main medium of public communication and
discussions. Initial efforts by the United Nations in Uganda have proved how
understanding the perceptions of rural people who are excluded from social
media is important in national planning. However, these efforts are being
challenged by the absence of transcribed speech datasets. In this paper, The
Makerere Artificial Intelligence research lab releases a Luganda radio speech
corpus of 155 hours. To our knowledge, this is the first publicly available
radio dataset in sub-Saharan Africa. The paper describes the development of the
voice corpus and presents baseline Luganda ASR performance results using Coqui
STT toolkit, an open source speech recognition toolkit.
- Abstract(参考訳): 使用可能な無線監視自動音声認識(ASR)システムの構築は、アンダーリソース言語にとって難しい課題であるが、無線が公共通信や議論の主要な媒体である社会において、これは最重要課題である。
ウガンダの国連による最初の取り組みは、ソーシャルメディアから除外された農村の人々の認識を理解することが国家計画において重要であることを証明した。
しかし、これらの取り組みは、書き起こされた音声データセットの欠如によって挑戦されている。
本稿では、makererere artificial intelligence research labが155時間のlugandaラジオ音声コーパスをリリースする。
私たちの知る限り、これはサハラ以南のアフリカで最初に公開されたラジオデータセットである。
本稿では,音声コーパスの開発について述べるとともに,オープンソースの音声認識ツールキットであるCoqui STTツールキットを用いて,ベースラインLuganda ASRの性能評価結果を示す。
関連論文リスト
- Towards measuring fairness in speech recognition: Fair-Speech dataset [14.703638352216132]
本論文では,ASRモデルの精度評価を支援するために,新たなデータセットであるFair-Speechを紹介した。
私たちのデータセットには、米国593人による録音された音声で約26.5Kの発声が含まれています。
論文 参考訳(メタデータ) (2024-08-22T20:55:17Z) - Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design [58.50329724298128]
本稿では, 現実的な応用を目指して, 難聴者のための覚醒語スポッティング(WWS)タスクについて述べる。
我々は,家庭環境における変形性個人を対象としたデータセットであるMandarin Dysarthria Speech Corpus (MDSC) をオープンソースとしてリリースした。
また, 難易度を処理し, 卓越した性能を達成し, 頑健性を示すカスタマイズ型変形性WWSシステムの開発を行った。
論文 参考訳(メタデータ) (2024-06-14T03:06:55Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Artificial Neural Networks to Recognize Speakers Division from Continuous Bengali Speech [0.5330251011543498]
我々は,男性633人,女性633人を対象に,45時間以上の音声データを用いた。
私たちは85.44%の精度を記録しました。
論文 参考訳(メタデータ) (2024-04-18T10:17:20Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - Kaggle Competition: Cantonese Audio-Visual Speech Recognition for In-car
Commands [48.155806720847394]
車載スマートアシスタントは、車に関するコマンドだけでなく、一般的な処理も行う必要がある。
ほとんどのデータセットは、英語や中国語などの主要言語で使われている。
我々は車載コマンドに対するカントネーゼ音声認識を提案する。
論文 参考訳(メタデータ) (2022-07-06T13:31:56Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - Using Radio Archives for Low-Resource Speech Recognition: Towards an
Intelligent Virtual Assistant for Illiterate Users [3.3946853660795884]
多くの国では、低リソース言語のみを話す傾向があります。
ノイズの多いラジオ放送アーカイブにおける教師なし音声表現学習の有効性を検討する。
我々の貢献は、倫理的AI研究がデジタル分割によって最も不利な人々のニーズを満たすための道のりを提供する。
論文 参考訳(メタデータ) (2021-04-27T10:09:34Z) - Fast Development of ASR in African Languages using Self Supervised
Speech Representation Learning [13.7466513616362]
本稿では,2020年6月のAfrican Master of Machine Intelligence (AMMI)における非公式なコラボレーションの結果について述べる。
モバイルアプリケーションを用いた音声データ収集に関する一連の講義と研究室の後、少数の学生と講師は、Wolof、Ga、Somaliの3つの言語のための自動音声認識(ASR)プロジェクトに取り組んだ。
本稿では,データ収集方法と,少量 (1h) の書き起こし音声を訓練データとして開発したASRシステムについて述べる。
論文 参考訳(メタデータ) (2021-03-16T11:37:03Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。