論文の概要: A Survey of Text and Speech Resources for Hausa and Fongbe: Availability, Quality, and Gaps for NLP Development
- arxiv url: http://arxiv.org/abs/2605.22828v1
- Date: Mon, 13 Apr 2026 10:59:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.442205
- Title: A Survey of Text and Speech Resources for Hausa and Fongbe: Availability, Quality, and Gaps for NLP Development
- Title(参考訳): ハウサとフォンベのテキスト・音声資源に関する調査--NLP開発のための可用性・品質・ギャップ
- Authors: Mahounan Pericles Adjovi, Victor Olufemi, Roald Eiselen, Prasenjit Mitra,
- Abstract要約: ハウサ語は、約8億人から1億人の話者を持つアフロアシア語であり、ニジェール・コンゴ語であるフォンベ語は、ベニンで約200万人が話していた。
この調査は、西アフリカの2つの言語で公開されているテキストと音声リソースの包括的カタログを提供する。
- 参考スコア(独自算出の注目度): 11.053174014226078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This survey provides a comprehensive catalog of publicly available text and speech resources for two West African languages: Hausa, an Afroasiatic language with approximately 80-100 million speakers, and Fongbe, a Niger-Congo language spoken by approximately 2 million people in Benin. These languages represent contrasting cases on the resource availability spectrum. We address the question: \textit{What is the current state of publicly available NLP resources for Hausa and Fongbe, and what gaps remain?} Through systematic search of academic repositories, data platforms, and web sources, we catalog parallel corpora, monolingual text collections, speech datasets, pre-trained models, and evaluation benchmarks. For each resource, we document size, domain coverage, format, licensing, and accessibility. Our findings reveal that Hausa benefits from broader text resource diversity across news, encyclopedic, and educational domains. Fongbe, while having more limited text resources, has been the focus of recent academic speech data collection initiatives. Both languages are represented in Masakhane benchmarks for NER and POS tagging. We provide task-specific recommendations and identify priority gaps including domain-diverse Fongbe text and dedicated Hausa speech corpora.
- Abstract(参考訳): この調査は、2つの西アフリカの言語で公開されているテキストと音声リソースの包括的カタログを提供する: Hausa、約8000~1億人の話者を持つアフロアシアティック言語、Fongbe、ベニンで約200万人が話すニジェール・コンゴ語である。
これらの言語はリソース・アベイラビリティー・スペクトルにおける対照的なケースを表す。
Hausa と Fongbe の NLP リソースの公開状況とギャップはどのようなものか?
学術リポジトリ,データプラットフォーム,Webソースの体系的な検索を通じて,並列コーパス,モノリンガルテキストコレクション,音声データセット,事前学習モデル,評価ベンチマークをカタログ化する。
各リソースについて、サイズ、ドメインカバレッジ、フォーマット、ライセンス、アクセシビリティを文書化します。
以上の結果から,Hausaはニュース,百科事典,教育領域にまたがる幅広いテキストリソースの多様性の恩恵を受けていることが明らかとなった。
Fongbeはテキストリソースが限られているが、最近の学術的な音声データ収集の取り組みの焦点となっている。
どちらの言語も NER と POS タグ付けのための Masakhane ベンチマークで表現されている。
タスク固有のレコメンデーションを提供し、ドメイン・ディバースのFongbeテキストや専用のHausa音声コーパスを含む優先度ギャップを識別する。
関連論文リスト
- BhashaSutra: A Task-Centric Unified Survey of Indian NLP Datasets, Corpora, and Resources [13.574373781253305]
我々は、200以上のデータセット、50以上のベンチマーク、100以上のモデル、ツール、テキスト、スピーチ、マルチモーダル、文化的根拠のあるタスクを含む、インドのNLPリソースに関する最初の統一的な調査を提示する。
我々は、言語現象、ドメイン、モダリティによって資源を整理し、アノテーション、評価、モデルデザインのトレンドを分析し、データ空間、不均一な言語カバレッジ、スクリプトの多様性、限られた文化的・ドメインの一般化といった永続的な課題を特定する。
論文 参考訳(メタデータ) (2026-04-20T15:41:05Z) - TaigiSpeech: A Low-Resource Real-World Speech Intent Dataset and Preliminary Results with Scalable Data Mining In-the-Wild [102.11425887660327]
音声技術は急速に進歩し、世界中の多様な人口に役立っている。
多くの言語は限られた資源のために表現されていない。
台湾の台義における実世界の発話意図データセットであるtextbfTaigiSpeechを紹介した。
論文 参考訳(メタデータ) (2026-03-23T01:44:45Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo [0.015863809575305417]
本稿では,Fon の最先端 ASR モデルと Igbo のベンチマーク ASR モデルについて述べる。
本稿では,各言語の包括的言語分析を行い,両言語間のエンドツーエンド,ディープニューラルネットワークに基づく音声認識モデルの作成について述べる。
論文 参考訳(メタデータ) (2021-03-13T18:02:44Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z) - Google Crowdsourced Speech Corpora and Related Open-Source Resources for
Low-Resource Languages and Dialects: An Overview [43.92114369646489]
テキスト音声と自動音声認識アプリケーションを構築するために38のデータセットをリリースした。
本稿では,このようなコーパスの開発に使用される方法論について述べるとともに,表現不足の言語コミュニティに恩恵をもたらす可能性のある知見をいくつか提示する。
論文 参考訳(メタデータ) (2020-10-14T02:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。