論文の概要: Ibom NLP: A Step Toward Inclusive Natural Language Processing for Nigeria's Minority Languages
- arxiv url: http://arxiv.org/abs/2511.06531v1
- Date: Sun, 09 Nov 2025 20:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.993889
- Title: Ibom NLP: A Step Toward Inclusive Natural Language Processing for Nigeria's Minority Languages
- Title(参考訳): Ibom NLP:ナイジェリアの少数言語のための包括的自然言語処理へのステップ
- Authors: Oluwadara Kalejaiye, Luel Hagos Beyene, David Ifeoluwa Adelani, Mmekut-Mfon Gabriel Edet, Aniefon Daniel Akpan, Eno-Abasi Urua, Anietie Andy,
- Abstract要約: ナイジェリアはアフリカで最も人口の多い国であり、人口は2億人を超えている。
ナイジェリアでは500以上の言語が話されており、世界で最も言語的に多様である。
それにもかかわらず、自然言語処理(NLP)の研究は主に、Hausa、Igbo、ナイジェリア・ピジン、Yorubaの4つの言語に焦点を当てている。
- 参考スコア(独自算出の注目度): 5.5078606217036965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nigeria is the most populous country in Africa with a population of more than 200 million people. More than 500 languages are spoken in Nigeria and it is one of the most linguistically diverse countries in the world. Despite this, natural language processing (NLP) research has mostly focused on the following four languages: Hausa, Igbo, Nigerian-Pidgin, and Yoruba (i.e <1% of the languages spoken in Nigeria). This is in part due to the unavailability of textual data in these languages to train and apply NLP algorithms. In this work, we introduce ibom -- a dataset for machine translation and topic classification in four Coastal Nigerian languages from the Akwa Ibom State region: Anaang, Efik, Ibibio, and Oro. These languages are not represented in Google Translate or in major benchmarks such as Flores-200 or SIB-200. We focus on extending Flores-200 benchmark to these languages, and further align the translated texts with topic labels based on SIB-200 classification dataset. Our evaluation shows that current LLMs perform poorly on machine translation for these languages in both zero-and-few shot settings. However, we find the few-shot samples to steadily improve topic classification with more shots.
- Abstract(参考訳): ナイジェリアはアフリカで最も人口の多い国であり、人口は2億人を超えている。
ナイジェリアでは500以上の言語が話されており、世界で最も言語的に多様である。
それにもかかわらず、自然言語処理(NLP)の研究は主に、ハウサ語、イグボ語、ナイジェリア・ピジン語、ヨルバ語(ナイジェリアで話されている言語のうち1%)の4つの言語に焦点を当てている。
これは、NLPアルゴリズムをトレーニングし、適用するために、これらの言語でテキストデータが利用できないためである。
本研究では,Akwa Ibom州域の4つのナイジェリア沿岸言語(Anaang, Efik, Ibibio, Oro)の機械翻訳とトピック分類のためのデータセットibomを紹介する。
これらの言語はGoogle TranslateやFlores-200やSIB-200のような主要なベンチマークでは表現されない。
我々はFlores-200ベンチマークをこれらの言語に拡張することに注力し、さらにSIB-200分類データセットに基づいて翻訳されたテキストをトピックラベルに調整する。
評価の結果,現在のLLMは,ゼロ・フェール・ショット・セッティングにおいて,これらの言語に対する機械翻訳が不十分であることがわかった。
しかし、より多くのショットでトピック分類を着実に改善するために、いくつかのサンプルが見つかる。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Does Generative AI speak Nigerian-Pidgin?: Issues about Representativeness and Bias for Multilingualism in LLMs [8.829688681748413]
ナイジャ語はナイジェリアのピジン語で、約120万人の話者によって話されている。
西アフリカ・ピジン英語(西アフリカ・ピジン英語、西アフリカ・ピジン英語、西アフリカ・ピジン英語、西アフリカ・ピジン英語、西アフリカ・ピジン英語、西アフリカ・ピジン英語、西アフリカ・ピジン
論文 参考訳(メタデータ) (2024-04-30T10:45:40Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NollySenti: Leveraging Transfer Learning and Machine Translation for
Nigerian Movie Sentiment Classification [10.18858070640917]
アフリカには2000以上の先住民族の言語があるが、データセットが不足しているため、NLPの研究では不足している。
私たちは、ナイジェリアで広く話されている5つの言語(英語、ハウサ語、イグボ語、ナイジェリア・ピジン語、ヨルバ語)のノリーウッド映画レビューに基づいて、新しいデータセット、NollySentiを作成しました。
論文 参考訳(メタデータ) (2023-05-18T13:38:36Z) - AfriSenti: A Twitter Sentiment Analysis Benchmark for African Languages [45.88640066767242]
アフリカには6以上の言語族から2000以上の言語があり、全大陸で最高の言語多様性がある。
しかし、アフリカ語で実施されているNLP研究はほとんどない。そのような研究を可能にする上で重要なのは、高品質な注釈付きデータセットが利用可能であることだ。
本稿では,14のアフリカ語で110,000以上のツイートを含む感情分析ベンチマークであるAfriSentiを紹介する。
論文 参考訳(メタデータ) (2023-02-17T15:40:12Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - Igbo-English Machine Translation: An Evaluation Benchmark [3.0151383439513753]
我々はIgboの標準的な機械翻訳ベンチマークデータセットを構築する取り組みについて論じる。
イグボ語は全世界で5000万人以上が話しており、話者の50%以上がナイジェリア南東部に住んでいる。
論文 参考訳(メタデータ) (2020-04-01T18:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。