論文の概要: NaijaNLP: A Survey of Nigerian Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2502.19784v2
- Date: Thu, 06 Mar 2025 23:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:40.423751
- Title: NaijaNLP: A Survey of Nigerian Low-Resource Languages
- Title(参考訳): NaijaNLP:ナイジェリアの低リソース言語の調査
- Authors: Isa Inuwa-Dutse,
- Abstract要約: 3つの言語(Hausa、Yorub'a、Igbo)がナイジェリアの話し言葉の約60%を占めている。
これらの言語は、計算言語学におけるタスクを支援するリソースが不足しているため、低リソースに分類される。
本研究は,ナイジェリアの3大言語を対象とした低リソースNLP(LR-NLP)研究の進展を概観する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: With over 500 languages in Nigeria, three languages -- Hausa, Yor\`ub\'a and Igbo -- spoken by over 175 million people, account for about 60% of the spoken languages. However, these languages are categorised as low-resource due to insufficient resources to support tasks in computational linguistics. Several research efforts and initiatives have been presented, however, a coherent understanding of the state of Natural Language Processing (NLP) - from grammatical formalisation to linguistic resources that support complex tasks such as language understanding and generation is lacking. This study presents the first comprehensive review of advancements in low-resource NLP (LR-NLP) research across the three major Nigerian languages (NaijaNLP). We quantitatively assess the available linguistic resources and identify key challenges. Although a growing body of literature addresses various NLP downstream tasks in Hausa, Igbo, and Yor\`ub\'a, only about 25.1% of the reviewed studies contribute new linguistic resources. This finding highlights a persistent reliance on repurposing existing data rather than generating novel, high-quality resources. Additionally, language-specific challenges, such as the accurate representation of diacritics, remain under-explored. To advance NaijaNLP and LR-NLP more broadly, we emphasise the need for intensified efforts in resource enrichment, comprehensive annotation, and the development of open collaborative initiatives.
- Abstract(参考訳): ナイジェリアでは500以上の言語があり、Hausa、Yor\`ub\'a、Igboの3つの言語が1億7500万人以上で話され、話者の約60%を占めている。
しかし、これらの言語は、計算言語学におけるタスクを支援するリソースが不足しているため、低リソースに分類される。
しかし、文法的な形式化から言語理解や生成といった複雑なタスクを支援する言語資源まで、自然言語処理(NLP)の現状のコヒーレントな理解が欠如している。
本研究は,ナイジェリアの主要3言語(ナイジャNLP)における低リソースNLP(LR-NLP)研究の進展を包括的に概観する。
利用可能な言語資源を定量的に評価し、重要な課題を特定する。
多くの文献がハウサ、イグボ、Yor\`ub\'aの様々なNLP下流タスクに対処しているが、レビューされた研究の約25.1%が新たな言語資源を提供している。
この発見は、新規で高品質なリソースを生成するのではなく、既存のデータを再購入することに絶え間なく依存していることを強調している。
さらに、ダイアクリティカルティクスの正確な表現のような言語固有の課題は、未発見のままである。
より広範にNaijaNLPとLR-NLPを推し進めるために、資源の充実、包括的なアノテーション、オープンコラボレーティブ開発の必要性を強調した。
関連論文リスト
- State of NLP in Kenya: A Survey [0.25454395163615406]
ケニアは言語多様性で知られており、自然言語処理の進歩において固有の課題と有望な機会に直面している。
本調査はケニアにおけるNLPの現状を詳細に評価する。
論文では、利用可能なデータセットと既存のNLPモデルを批判的に評価することで、大きなギャップを明らかにする。
論文 参考訳(メタデータ) (2024-10-13T18:08:24Z) - Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP [2.3499129784547663]
本研究は、体系的かつ総合的なモノリンガルNLPサーベイを作成するための一般化可能な方法論を紹介する。
本手法をギリシャのNLP(2012-2023)に適用し,その現状と課題を概観する。
論文 参考訳(メタデータ) (2024-07-13T12:01:52Z) - The Ghanaian NLP Landscape: A First Look [9.17372840572907]
特にガーナ語は絶滅が記録され、いくつかは危険にさらされている。
本研究は、ガーナ語に焦点をあてた自然言語処理(NLP)研究の包括的調査のパイオニアである。
論文 参考訳(メタデータ) (2024-05-10T21:39:09Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - One Country, 700+ Languages: NLP Challenges for Underrepresented
Languages and Dialects in Indonesia [60.87739250251769]
インドネシアの700以上の言語を対象としたNLP研究の現状について概説する。
インドネシアのNLPにおける課題と、現在のNLPシステムの性能にどのように影響するかを強調します。
論文 参考訳(メタデータ) (2022-03-24T22:07:22Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z) - Including Signed Languages in Natural Language Processing [48.62744923724317]
署名された言語は、聴覚障害者や難聴者のコミュニケーションの主な手段です。
このポジショニングペーパーは、NLPコミュニティに対して、社会的および科学的影響の高い研究領域として署名された言語を含めるよう求めている。
論文 参考訳(メタデータ) (2021-05-11T17:37:55Z) - Low-Resource Adaptation of Neural NLP Models [0.30458514384586405]
本論文は,情報抽出と自然言語理解における低リソースシナリオを扱う手法について考察する。
ニューラルNLPモデルを開発し,学習データを最小限にしたNLPタスクに関する多くの研究課題を探索する。
論文 参考訳(メタデータ) (2020-11-09T12:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。