論文の概要: Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects
- arxiv url: http://arxiv.org/abs/2502.17364v1
- Date: Mon, 24 Feb 2025 17:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:13.496574
- Title: Bridging Gaps in Natural Language Processing for Yorùbá: A Systematic Review of a Decade of Progress and Prospects
- Title(参考訳): ヨルバの自然言語処理におけるブリッジングギャップ:進歩と展望の10年を体系的に振り返る
- Authors: Toheeb A. Jimoh, Tabea De Wille, Nikola S. Nikolov,
- Abstract要約: このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題を重要な障害として取り上げている。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
- 参考スコア(独自算出の注目度): 0.6554326244334868
- License:
- Abstract: Natural Language Processing (NLP) is becoming a dominant subset of artificial intelligence as the need to help machines understand human language looks indispensable. Several NLP applications are ubiquitous, partly due to the myriads of datasets being churned out daily through mediums like social networking sites. However, the growing development has not been evident in most African languages due to the persisting resource limitation, among other issues. Yor\`ub\'a language, a tonal and morphologically rich African language, suffers a similar fate, resulting in limited NLP usage. To encourage further research towards improving this situation, this systematic literature review aims to comprehensively analyse studies addressing NLP development for Yor\`ub\'a, identifying challenges, resources, techniques, and applications. A well-defined search string from a structured protocol was employed to search, select, and analyse 105 primary studies between 2014 and 2024 from reputable databases. The review highlights the scarcity of annotated corpora, limited availability of pre-trained language models, and linguistic challenges like tonal complexity and diacritic dependency as significant obstacles. It also revealed the prominent techniques, including rule-based methods, among others. The findings reveal a growing body of multilingual and monolingual resources, even though the field is constrained by socio-cultural factors such as code-switching and desertion of language for digital usage. This review synthesises existing research, providing a foundation for advancing NLP for Yor\`ub\'a and in African languages generally. It aims to guide future research by identifying gaps and opportunities, thereby contributing to the broader inclusion of Yor\`ub\'a and other under-resourced African languages in global NLP advancements.
- Abstract(参考訳): 自然言語処理(NLP)は、機械が人間の言語を理解するのに欠かせないため、人工知能の主流のサブセットになりつつある。
いくつかのNLPアプリケーションはユビキタスであり、その一部は、ソーシャルネットワークサイトのような媒体を通じて、毎日大量のデータセットが切り出されているためである。
しかし、多くのアフリカの言語では資源制限が持続しているため、開発が進んでいない。
Yor\`ub\'a言語はトーナルで形態的に豊かなアフリカの言語であり、同様の運命を経験し、NLPの使用は限られている。
この状況を改善するためのさらなる研究を促進するため、この体系的な文献レビューは、Yor\`ub\'aのNLP開発に取り組む研究を包括的に分析し、課題、資源、技術、応用を特定することを目的としている。
2014年から2024年にかけての105の一次研究を検索・選択・分析するために,構造化されたプロトコルから適切に定義された探索文字列を用いた。
このレビューでは、注釈付きコーパスの不足、事前訓練された言語モデルの可用性の制限、音節複雑性やダイアクリティカル依存といった言語的課題が重要な障害として強調されている。
また、ルールベースの手法など、顕著なテクニックも明らかにした。
この結果から,多言語・モノリンガル資源の増大が明らかとなった。ただし,この分野は,コードスイッチングやデジタル利用のための言語放棄といった社会文化的要因に制約されている。
このレビューは既存の研究を合成し、Yor\`ub\'a およびアフリカ言語における NLP の進歩の基礎を提供する。
ギャップと機会を見極めることで将来の研究を導くことを目的としており、グローバルNLPの進歩にYor\`ub\'aや他の未公開のアフリカ諸言語を幅広く取り入れることに貢献している。
関連論文リスト
- Towards Systematic Monolingual NLP Surveys: GenA of Greek NLP [2.3499129784547663]
本研究は、体系的かつ総合的なモノリンガルNLPサーベイを作成するための一般化可能な方法論を紹介する。
本手法をギリシャのNLP(2012-2023)に適用し,その現状と課題を概観する。
論文 参考訳(メタデータ) (2024-07-13T12:01:52Z) - A Survey on Large Language Models with Multilingualism: Recent Advances and New Frontiers [51.8203871494146]
LLM(Large Language Models)の急速な開発は、自然言語処理における顕著な多言語機能を示している。
LLMのブレークスルーにもかかわらず、多言語シナリオの研究は依然として不十分である。
本調査は,多言語問題に対する研究コミュニティの取り組みを支援することを目的としており,LLMに基づく多言語自然言語処理における中核概念,鍵技術,最新の発展の包括的理解を提供する。
論文 参考訳(メタデータ) (2024-05-17T17:47:39Z) - The Ghanaian NLP Landscape: A First Look [9.17372840572907]
特にガーナ語は絶滅が記録され、いくつかは危険にさらされている。
本研究は、ガーナ語に焦点をあてた自然言語処理(NLP)研究の包括的調査のパイオニアである。
論文 参考訳(メタデータ) (2024-05-10T21:39:09Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Bootstrapping NLP tools across low-resourced African languages: an
overview and prospects [1.5736899098702972]
あるアフリカの言語を別の言語からブートストラップするツールです
地理的に離れた言語に対するブートストラップ文法は、形態学や規則、文法に基づく自然言語生成に対して、依然として肯定的な結果をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-21T15:16:45Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。