論文の概要: Towards End-to-End Training of Automatic Speech Recognition for Nigerian Pidgin
- arxiv url: http://arxiv.org/abs/2010.11123v2
- Date: Mon, 26 May 2025 03:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:26.349923
- Title: Towards End-to-End Training of Automatic Speech Recognition for Nigerian Pidgin
- Title(参考訳): ナイジェリアピジンの自動音声認識の終末学習に向けて
- Authors: Amina Mardiyyah Rufai, Afolabi Abeeb, Esther Oduntan, Tayo Arulogun, Oluwabukola Adegboro, Daniel Ajisafe,
- Abstract要約: 本稿ではナイジェリアのピジン英語向けにカスタマイズされたエンドツーエンド音声認識システムの開発に焦点をあてる。
我々は,新しいデータセットを用いて,事前訓練された最先端アーキテクチャについて検討・評価を行った。
このアーキテクチャをデータセットで表現されたニュアンスに適応することにより、エラーを59.84%削減する。
- 参考スコア(独自算出の注目度): 1.099532646524593
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The prevalence of automatic speech recognition (ASR) systems in spoken language applications has increased significantly in recent years. Notably, many African languages lack sufficient linguistic resources to support the robustness of these systems. This paper focuses on the development of an end-to-end speech recognition system customized for Nigerian Pidgin English. We investigated and evaluated different pretrained state-of-the-art architectures on a new dataset. Our empirical results demonstrate a notable performance of the variant Wav2Vec2 XLSR-53 on our dataset, achieving a word error rate (WER) of 29.6% on the test set, surpassing other architectures such as NEMO QUARTZNET and Wav2Vec2.0 BASE-100H in quantitative assessments. Additionally, we demonstrate that pretrained state-of-the-art architectures do not work well out-of-the-box. We performed zero-shot evaluation using XLSR-English as the baseline, chosen for its similarity to Nigerian Pidgin. This yielded a higher WER of 73.7%. By adapting this architecture to nuances represented in our dataset, we reduce error by 59.84%. Our dataset comprises 4,288 recorded utterances from 10 native speakers, partitioned into training, validation, and test sets. This study underscores the potential for improving ASR systems for under-resourced languages like Nigerian Pidgin English, contributing to greater inclusion in speech technology applications. We publicly release our unique parallel dataset (speech-to-text) on Nigerian Pidgin, as well as the model weights on Hugging Face. Our code would be made available to foster future research from the community.
- Abstract(参考訳): 近年,音声言語アプリケーションにおける自動音声認識(ASR)システムの普及が著しく進んでいる。
特に、多くのアフリカの言語は、これらのシステムの堅牢性を支える十分な言語資源を欠いている。
本稿ではナイジェリアのピジン英語向けにカスタマイズされたエンドツーエンド音声認識システムの開発に焦点をあてる。
我々は,新しいデータセットを用いて,事前訓練された最先端アーキテクチャについて検討・評価を行った。
実験の結果,データセット上でのWAv2Vec2 XLSR-53の顕著な性能を示すとともに,テストセット上でのワードエラー率(WER)が29.6%に達し,NEMO QUARTZNET や Wav2Vec2.0 BASE-100H といった他のアーキテクチャを上回り,定量的評価を行った。
さらに、事前訓練された最先端アーキテクチャは、すぐにはうまく動作しないことを示した。
XLSR- English をベースラインとしてゼロショット評価を行い,ナイジェリアのピジンと類似性から選択した。
これによりWERは73.7%上昇した。
このアーキテクチャをデータセットで表現されたニュアンスに適応することにより、エラーを59.84%削減する。
データセットは10人のネイティブスピーカーから4,288の発話を録音し、トレーニング、検証、テストセットに分割した。
本研究は,ナイジェリア語ピジン英語などのアンダーリソース言語におけるASRシステムの改善の可能性を明らかにし,音声技術応用へのさらなる関与に寄与する。
私たちはナイジェリアのピジンで独自の並列データセット(speech-to-text)を公開し、Hugging Faceのモデルの重みを公開しています。
私たちのコードは、コミュニティから将来の研究を促進するために利用できます。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文 参考訳(メタデータ) (2022-04-17T20:23:04Z) - Using Radio Archives for Low-Resource Speech Recognition: Towards an
Intelligent Virtual Assistant for Illiterate Users [3.3946853660795884]
多くの国では、低リソース言語のみを話す傾向があります。
ノイズの多いラジオ放送アーカイブにおける教師なし音声表現学習の有効性を検討する。
我々の貢献は、倫理的AI研究がデジタル分割によって最も不利な人々のニーズを満たすための道のりを提供する。
論文 参考訳(メタデータ) (2021-04-27T10:09:34Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Igbo-English Machine Translation: An Evaluation Benchmark [3.0151383439513753]
我々はIgboの標準的な機械翻訳ベンチマークデータセットを構築する取り組みについて論じる。
イグボ語は全世界で5000万人以上が話しており、話者の50%以上がナイジェリア南東部に住んでいる。
論文 参考訳(メタデータ) (2020-04-01T18:06:21Z) - Towards Neural Machine Translation for Edoid Languages [2.144787054581292]
多くのナイジェリアの言語は、現代の社会における彼らの以前の名声と目的を、英語とナイジェリアのピジンに放棄した。
本研究は,南ナイジェリアの江戸語族におけるニューラルマシン翻訳の実現可能性について考察する。
論文 参考訳(メタデータ) (2020-03-24T07:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。