論文の概要: Automatic Speech Recognition (ASR) for African Low-Resource Languages: A Systematic Literature Review
- arxiv url: http://arxiv.org/abs/2510.01145v1
- Date: Wed, 01 Oct 2025 17:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.692857
- Title: Automatic Speech Recognition (ASR) for African Low-Resource Languages: A Systematic Literature Review
- Title(参考訳): アフリカ低リソース言語のための自動音声認識(ASR) : 体系的文献レビュー
- Authors: Sukairaj Hafiz Imam, Tadesse Destaw Belay, Kedir Yassin Husse, Ibrahim Said Ahmad, Idris Abdulmumin, Hadiza Ali Umar, Muhammad Yahuza Bello, Joyce Nakatumba-Nabende, Seid Muhie Yimam, Shamsuddeen Hassan Muhammad,
- Abstract要約: この体系的な文献レビューはアフリカ言語のためのASRの研究を探求する。
我々は2,062のレコードのうち71をスクリーニングし、111言語にまたがる合計74のデータセットを記録しました。
- 参考スコア(独自算出の注目度): 5.870858132995857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ASR has achieved remarkable global progress, yet African low-resource languages remain rigorously underrepresented, producing barriers to digital inclusion across the continent with more than +2000 languages. This systematic literature review (SLR) explores research on ASR for African languages with a focus on datasets, models and training methods, evaluation techniques, challenges, and recommends future directions. We employ the PRISMA 2020 procedures and search DBLP, ACM Digital Library, Google Scholar, Semantic Scholar, and arXiv for studies published between January 2020 and July 2025. We include studies related to ASR datasets, models or metrics for African languages, while excluding non-African, duplicates, and low-quality studies (score <3/5). We screen 71 out of 2,062 records and we record a total of 74 datasets across 111 languages, encompassing approximately 11,206 hours of speech. Fewer than 15% of research provided reproducible materials, and dataset licensing is not clear. Self-supervised and transfer learning techniques are promising, but are hindered by limited pre-training data, inadequate coverage of dialects, and the availability of resources. Most of the researchers use Word Error Rate (WER), with very minimal use of linguistically informed scores such as Character Error Rate (CER) or Diacritic Error Rate (DER), and thus with limited application in tonal and morphologically rich languages. The existing evidence on ASR systems is inconsistent, hindered by issues like dataset availability, poor annotations, licensing uncertainties, and limited benchmarking. Nevertheless, the rise of community-driven initiatives and methodological advancements indicates a pathway for improvement. Sustainable development for this area will also include stakeholder partnership, creation of ethically well-balanced datasets, use of lightweight modelling techniques, and active benchmarking.
- Abstract(参考訳): ASRは目覚ましいグローバルな進歩を遂げているが、アフリカの低リソース言語は厳格に不足しており、+2000以上の言語を持つ大陸全体のデジタル包摂に対する障壁を生み出している。
この体系的な文献レビュー(SLR)は、データセット、モデル、トレーニング方法、評価技術、課題に焦点を当てたアフリカ言語のためのASRの研究を探求し、今後の方向性を推奨する。
我々は、2020年1月から2025年7月までに発行された研究のために、PRISMA 2020プロシージャと検索DBLP、ACM Digital Library、Google Scholar、Semantic Scholar、arXivを採用。
ASRデータセット、アフリカ言語のモデルまたはメトリクスに関する研究が含まれているが、非アフリカ人、重複人、低品質の研究(スコア<3/5。
我々は2,062件のレコードのうち71件をスクリーニングし、約11,206時間の音声を含む111言語にわたる74のデータセットを記録しました。
再現可能な材料を提供する研究の15%以下であり、データセットのライセンスは明確ではない。
自己監督的・伝達的学習技術は有望であるが、限られた事前学習データ、方言の不十分なカバレッジ、リソースの可用性によって妨げられている。
研究者の多くは単語誤り率 (WER) を用いており、文字誤り率 (CER) や発音誤り率 (DER) といった言語学的知識は最小限であり、音節および形態学的に豊かな言語に限られている。
ASRシステムに関する既存の証拠は一貫性がなく、データセットの可用性、アノテーションの貧弱さ、ライセンスの不確実性、限られたベンチマークといった問題によって妨げられている。
それにもかかわらず、コミュニティ主導のイニシアティブと方法論の進歩の台頭は、改善の道筋を示している。
この領域の持続可能な開発には、ステークホルダーとのパートナーシップ、倫理的にバランスのとれたデータセットの作成、軽量なモデリング技術の使用、アクティブなベンチマークが含まれる。
関連論文リスト
- Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。
単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。
そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文 参考訳(メタデータ) (2025-06-30T22:26:36Z) - Improving Multilingual Math Reasoning for African Languages [49.27985213689457]
データタイプ(翻訳と合成)、トレーニングステージ(事前学習と後学習)、その他のモデル適応構成の異なる組み合わせを評価する実験を行う。
実験では,Llama 3.1 モデルファミリをベースモデルとして,数学的推論タスクに着目した。
論文 参考訳(メタデータ) (2025-05-26T11:35:01Z) - Automatic Speech Recognition for African Low-Resource Languages: Challenges and Future Directions [4.524096445909663]
アフリカにおける低資源言語は、研究と実践の双方において、著しく過小評価されている。
本研究では,これらの言語に対するASRシステムの開発に支障をきたす主要な課題について検討する。
論文 参考訳(メタデータ) (2025-05-16T20:57:39Z) - Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects [0.6554326244334868]
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
論文 参考訳(メタデータ) (2025-02-24T17:41:48Z) - Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [2.4654745083407175]
本稿では,アノテーションプロセスの自動化に不確実性を利用するマルチラウンド適応プロセスを提案する。
この手法はデータアノテーションを合理化し、モデルの不確実性に最も寄与するデータサンプルを戦略的に選択する。
以上の結果から,従来のベースラインよりも平均45%少ないデータを必要とする一方で,WERの相対的改善率は27%であることが示唆された。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。