論文の概要: Natural language processing for African languages
- arxiv url: http://arxiv.org/abs/2507.00297v1
- Date: Mon, 30 Jun 2025 22:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.030647
- Title: Natural language processing for African languages
- Title(参考訳): アフリカの言語のための自然言語処理
- Authors: David Ifeoluwa Adelani,
- Abstract要約: 論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。
単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。
そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
- 参考スコア(独自算出の注目度): 7.884789325654572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in word embeddings and language models use large-scale, unlabelled data and self-supervised learning to boost NLP performance. Multilingual models, often trained on web-sourced data like Wikipedia, face challenges: few low-resource languages are included, their data is often noisy, and lack of labeled datasets makes it hard to evaluate performance outside high-resource languages like English. In this dissertation, we focus on languages spoken in Sub-Saharan Africa where all the indigenous languages in this region can be regarded as low-resourced in terms of the availability of labelled data for NLP tasks and unlabelled data found on the web. We analyse the noise in the publicly available corpora, and curate a high-quality corpus, demonstrating that the quality of semantic representations learned in word embeddings does not only depend on the amount of data but on the quality of pre-training data. We demonstrate empirically the limitations of word embeddings, and the opportunities the multilingual pre-trained language model (PLM) offers especially for languages unseen during pre-training and low-resource scenarios. We further study how to adapt and specialize multilingual PLMs to unseen African languages using a small amount of monolingual texts. To address the under-representation of the African languages in NLP research, we developed large scale human-annotated labelled datasets for 21 African languages in two impactful NLP tasks: named entity recognition and machine translation. We conduct an extensive empirical evaluation using state-of-the-art methods across supervised, weakly-supervised, and transfer learning settings.
- Abstract(参考訳): 単語埋め込みと言語モデルの最近の進歩は、大規模で遅延のないデータと自己教師付き学習を用いて、NLP性能を向上している。
WikipediaのようなWebソースのデータに基づいてトレーニングされる多言語モデルは、課題に直面している。低リソース言語はほとんど含まれておらず、そのデータはうるさいことが多く、ラベル付きデータセットがないことは、英語のような高リソース言語以外でのパフォーマンスを評価するのを困難にしている。
この論文では、サハラ以南のアフリカで話される言語に焦点を当て、NLPタスクのラベル付きデータと、Webで見いだされた非ラベル付きデータの可用性の観点から、この地域のすべての先住民言語を低リソースと見なすことができる。
我々は,公開コーパスの雑音を分析し,高品質なコーパスをキュレートし,単語埋め込みで学習した意味表現の質は,データ量だけでなく事前学習データの品質にも依存することを示した。
単語埋め込みの限界と多言語事前学習言語モデル(PLM)が、特に事前学習や低リソースシナリオにおいて目に見えない言語にもたらす機会を実証的に示す。
さらに、少数の単言語テキストを用いて、未確認のアフリカ言語に多言語 PLM を適応させ、特殊化する方法について研究する。
NLP研究におけるアフリカ諸言語の表現不足に対処するため,21のアフリカ諸言語を対象とした大規模ラベル付きデータセットを,エンティティ認識と機械翻訳という2つの影響のあるNLPタスクで開発した。
我々は、教師付き、弱教師付き、および伝達学習設定にまたがる最先端の手法を用いて、広範な経験的評価を行う。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Beyond Counting Datasets: A Survey of Multilingual Dataset Construction
and Necessary Resources [38.814057529254846]
公開されている156個のNLPデータセットの特徴について検討する。
言語に習熟したNLP研究者と集団労働者を対象に調査を行った。
メカニカルトルコプラットフォーム上で高品質な多言語データを収集するための戦略を同定する。
論文 参考訳(メタデータ) (2022-11-28T18:54:33Z) - Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。