論文の概要: MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2210.12391v1
- Date: Sat, 22 Oct 2022 08:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 15:59:04.731756
- Title: MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition
- Title(参考訳): masakhaner 2.0: 名前付きエンティティ認識のためのアフリカ中心の転送学習
- Authors: David Ifeoluwa Adelani, Graham Neubig, Sebastian Ruder, Shruti
Rijhwani, Michael Beukman, Chester Palen-Michel, Constantine Lignos, Jesujoba
O. Alabi, Shamsuddeen H. Muhammad, Peter Nabende, Cheikh M. Bamba Dione,
Andiswa Bukula, Rooweither Mabuya, Bonaventure F. P. Dossou, Blessing
Sibanda, Happy Buzaaba, Jonathan Mukiibi, Godson Kalipe, Derguene Mbaye,
Amelia Taylor, Fatoumata Kabore, Chris Chinenye Emezue, Anuoluwapo Aremu,
Perez Ogayo, Catherine Gitau, Edwin Munkoh-Buabeng, Victoire M. Koagne,
Allahsera Auguste Tapo, Tebogo Macucwa, Vukosi Marivate, Elvis Mboning,
Tajuddeen Gwadabe, Tosin Adewumi, Orevaoghene Ahia, Joyce Nakatumba-Nabende,
Neo L. Mokono, Ignatius Ezeani, Chiamaka Chukwuneke, Mofetoluwa Adeyemi,
Gilles Q. Hacheme, Idris Abdulmumin, Odunayo Ogundepo, Oreen Yousuf, Tatiana
Moteu Ngoli, Dietrich Klakow
- Abstract要約: アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
- 参考スコア(独自算出の注目度): 55.95128479289923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: African languages are spoken by over a billion people, but are
underrepresented in NLP research and development. The challenges impeding
progress include the limited availability of annotated datasets, as well as a
lack of understanding of the settings where current methods are effective. In
this paper, we make progress towards solutions for these challenges, focusing
on the task of named entity recognition (NER). We create the largest
human-annotated NER dataset for 20 African languages, and we study the behavior
of state-of-the-art cross-lingual transfer methods in an Africa-centric
setting, demonstrating that the choice of source language significantly affects
performance. We show that choosing the best transfer language improves
zero-shot F1 scores by an average of 14 points across 20 languages compared to
using English. Our results highlight the need for benchmark datasets and models
that cover typologically-diverse African languages.
- Abstract(参考訳): アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
進歩を妨げる課題としては、アノテーション付きデータセットの可用性の制限、現在のメソッドが有効である設定の理解の欠如などがある。
本稿では,これらの課題に対する解決に向けて,名前付きエンティティ認識(NER)の課題に焦点をあてる。
20のアフリカ語で最大規模のnerデータセットを作成し、アフリカ中心の環境で最先端のクロスリンガルトランスファー手法の振る舞いを調べ、ソース言語の選択がパフォーマンスに大きく影響することを実証した。
ベストトランスファー言語を選択することで、英語よりも20言語で平均14ポイントのゼロショットf1スコアが向上することを示した。
本研究の結果は,類型的に異なるアフリカの言語をカバーするベンチマークデータセットとモデルの必要性を強調した。
関連論文リスト
- Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language
Selection for Low-Resource Multilingual Sentiment Analysis [11.05909046179595]
本稿では,SemEval-2023タスク12「Twitterデータセットを用いた低リソースアフリカの言語に対する感性分析」のために開発したシステムについて述べる。
対象言語とタスクに事前訓練されたモデルを適用すると、小さいが関連するコーパスを使うことで、F1スコア以上のパフォーマンスが著しく向上する。
共有タスクでは、15トラック中8トラックが勝利し、特に多言語評価において最善を尽くす。
論文 参考訳(メタデータ) (2023-04-28T21:02:58Z) - MasakhaNEWS: News Topic Classification for African languages [15.487928928173098]
アフリカの言語は、いくつかのNLPタスクをカバーするデータセットが欠如しているため、NLP研究において非常に不足している。
我々は,アフリカで広く話されている16言語を対象として,ニューストピック分類のための新しいベンチマークデータセットであるMashokhaNEWSを開発した。
論文 参考訳(メタデータ) (2023-04-19T21:12:23Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - MasakhaNER: Named Entity Recognition for African Languages [48.34339599387944]
アフリカで10の言語で名前付きエンティティ認識のための、最初の大規模な公開可能な高品質データセットを作成します。
我々は,これらの言語がNERにもたらす課題を理解するために,言語の特徴を詳述する。
論文 参考訳(メタデータ) (2021-03-22T13:12:44Z) - Lanfrica: A Participatory Approach to Documenting Machine Translation
Research on African Languages [0.012691047660244334]
アフリカは1500-2000の文書化された言語と多くの未文書または絶滅した言語がある。
これにより、MTの研究、モデル、データセットの追跡が困難になる。
オンラインプラットフォームは、これらのアフリカの言語の研究、ベンチマーク、データセットへのアクセシビリティを作成するのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T18:14:04Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。