論文の概要: Towards End-to-End Training of Automatic Speech Recognition for Nigerian Pidgin
- arxiv url: http://arxiv.org/abs/2010.11123v2
- Date: Mon, 26 May 2025 03:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 15:04:26.349923
- Title: Towards End-to-End Training of Automatic Speech Recognition for Nigerian Pidgin
- Title(参考訳): ナイジェリアピジンの自動音声認識の終末学習に向けて
- Authors: Amina Mardiyyah Rufai, Afolabi Abeeb, Esther Oduntan, Tayo Arulogun, Oluwabukola Adegboro, Daniel Ajisafe,
- Abstract要約: 本稿ではナイジェリアのピジン英語向けにカスタマイズされたエンドツーエンド音声認識システムの開発に焦点をあてる。
我々は,新しいデータセットを用いて,事前訓練された最先端アーキテクチャについて検討・評価を行った。
このアーキテクチャをデータセットで表現されたニュアンスに適応することにより、エラーを59.84%削減する。
- 参考スコア(独自算出の注目度): 1.099532646524593
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The prevalence of automatic speech recognition (ASR) systems in spoken language applications has increased significantly in recent years. Notably, many African languages lack sufficient linguistic resources to support the robustness of these systems. This paper focuses on the development of an end-to-end speech recognition system customized for Nigerian Pidgin English. We investigated and evaluated different pretrained state-of-the-art architectures on a new dataset. Our empirical results demonstrate a notable performance of the variant Wav2Vec2 XLSR-53 on our dataset, achieving a word error rate (WER) of 29.6% on the test set, surpassing other architectures such as NEMO QUARTZNET and Wav2Vec2.0 BASE-100H in quantitative assessments. Additionally, we demonstrate that pretrained state-of-the-art architectures do not work well out-of-the-box. We performed zero-shot evaluation using XLSR-English as the baseline, chosen for its similarity to Nigerian Pidgin. This yielded a higher WER of 73.7%. By adapting this architecture to nuances represented in our dataset, we reduce error by 59.84%. Our dataset comprises 4,288 recorded utterances from 10 native speakers, partitioned into training, validation, and test sets. This study underscores the potential for improving ASR systems for under-resourced languages like Nigerian Pidgin English, contributing to greater inclusion in speech technology applications. We publicly release our unique parallel dataset (speech-to-text) on Nigerian Pidgin, as well as the model weights on Hugging Face. Our code would be made available to foster future research from the community.
- Abstract(参考訳): 近年,音声言語アプリケーションにおける自動音声認識(ASR)システムの普及が著しく進んでいる。
特に、多くのアフリカの言語は、これらのシステムの堅牢性を支える十分な言語資源を欠いている。
本稿ではナイジェリアのピジン英語向けにカスタマイズされたエンドツーエンド音声認識システムの開発に焦点をあてる。
我々は,新しいデータセットを用いて,事前訓練された最先端アーキテクチャについて検討・評価を行った。
実験の結果,データセット上でのWAv2Vec2 XLSR-53の顕著な性能を示すとともに,テストセット上でのワードエラー率(WER)が29.6%に達し,NEMO QUARTZNET や Wav2Vec2.0 BASE-100H といった他のアーキテクチャを上回り,定量的評価を行った。
さらに、事前訓練された最先端アーキテクチャは、すぐにはうまく動作しないことを示した。
XLSR- English をベースラインとしてゼロショット評価を行い,ナイジェリアのピジンと類似性から選択した。
これによりWERは73.7%上昇した。
このアーキテクチャをデータセットで表現されたニュアンスに適応することにより、エラーを59.84%削減する。
データセットは10人のネイティブスピーカーから4,288の発話を録音し、トレーニング、検証、テストセットに分割した。
本研究は,ナイジェリア語ピジン英語などのアンダーリソース言語におけるASRシステムの改善の可能性を明らかにし,音声技術応用へのさらなる関与に寄与する。
私たちはナイジェリアのピジンで独自の並列データセット(speech-to-text)を公開し、Hugging Faceのモデルの重みを公開しています。
私たちのコードは、コミュニティから将来の研究を促進するために利用できます。
関連論文リスト
- Supporting SENCOTEN Language Documentation Efforts with Automatic Speech Recognition [4.702636570667311]
バンクーバー島南部のサアニチ半島で話されているセノチェン語は、活発な言語再生の努力の最中である。
そこで本研究では,音声合成システムからの音声データを利用したASR駆動型文書パイプラインを提案する。
n-gram言語モデルは、利用可能なデータの使用を最大化するために、浅い融合やn-best復元によっても組み込まれている。
論文 参考訳(メタデータ) (2025-07-14T21:44:35Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - A Novel Self-training Approach for Low-resource Speech Recognition [15.612232220719653]
低リソース環境における自動音声認識(ASR)のための自己学習手法を提案する。
提案手法は単語誤り率を大幅に改善し,14.94%の相対的な改善を実現した。
提案手法は,Common Voice Punjabiデータセットの最良の結果を報告する。
論文 参考訳(メタデータ) (2023-08-10T01:02:45Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - MasakhaNEWS: News Topic Classification for African languages [15.487928928173098]
アフリカの言語は、いくつかのNLPタスクをカバーするデータセットが欠如しているため、NLP研究において非常に不足している。
我々は,アフリカで広く話されている16言語を対象として,ニューストピック分類のための新しいベンチマークデータセットであるMashokhaNEWSを開発した。
論文 参考訳(メタデータ) (2023-04-19T21:12:23Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文 参考訳(メタデータ) (2022-04-17T20:23:04Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Using Radio Archives for Low-Resource Speech Recognition: Towards an
Intelligent Virtual Assistant for Illiterate Users [3.3946853660795884]
多くの国では、低リソース言語のみを話す傾向があります。
ノイズの多いラジオ放送アーカイブにおける教師なし音声表現学習の有効性を検討する。
我々の貢献は、倫理的AI研究がデジタル分割によって最も不利な人々のニーズを満たすための道のりを提供する。
論文 参考訳(メタデータ) (2021-04-27T10:09:34Z) - Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages [10.61744395262441]
オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
論文 参考訳(メタデータ) (2021-03-26T16:44:08Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Transfer Learning based Speech Affect Recognition in Urdu [0.0]
高リソース言語のモデルが認識タスクに与える影響を事前学習し、低リソース言語のパラメータを微調整する。
このアプローチは、既存のアルゴリズムと比較して高いUnweighted Average Recall(UAR)を実現する。
論文 参考訳(メタデータ) (2021-03-05T10:30:58Z) - Igbo-English Machine Translation: An Evaluation Benchmark [3.0151383439513753]
我々はIgboの標準的な機械翻訳ベンチマークデータセットを構築する取り組みについて論じる。
イグボ語は全世界で5000万人以上が話しており、話者の50%以上がナイジェリア南東部に住んでいる。
論文 参考訳(メタデータ) (2020-04-01T18:06:21Z) - Towards Neural Machine Translation for Edoid Languages [2.144787054581292]
多くのナイジェリアの言語は、現代の社会における彼らの以前の名声と目的を、英語とナイジェリアのピジンに放棄した。
本研究は,南ナイジェリアの江戸語族におけるニューラルマシン翻訳の実現可能性について考察する。
論文 参考訳(メタデータ) (2020-03-24T07:53:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。