論文の概要: NaijaNER : Comprehensive Named Entity Recognition for 5 Nigerian
Languages
- arxiv url: http://arxiv.org/abs/2105.00810v1
- Date: Tue, 30 Mar 2021 22:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 03:14:28.794493
- Title: NaijaNER : Comprehensive Named Entity Recognition for 5 Nigerian
Languages
- Title(参考訳): NaijaNER : ナイジェリア語5言語に対する総合的なエンティティ認識
- Authors: Wuraola Fisayo Oyewusi, Olubayo Adekanmbi, Ifeoma Okoh, Vitus Onuigwe,
Mary Idera Salami, Opeyemi Osakuade, Sharon Ibejih, Usman Abdullahi Musa
- Abstract要約: ナイジェリア語5言語を対象とした名前付きエンティティ認識について述べる。
これらの言語は低リソースと見なされており、オープンソースで利用可能な自然言語処理作業はほとんど行われていない。
- 参考スコア(独自算出の注目度): 6.742864446722399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most of the common applications of Named Entity Recognition (NER) is on
English and other highly available languages. In this work, we present our
findings on Named Entity Recognition for 5 Nigerian Languages (Nigerian
English, Nigerian Pidgin English, Igbo, Yoruba and Hausa). These languages are
considered low-resourced, and very little openly available Natural Language
Processing work has been done in most of them. In this work, individual NER
models were trained and metrics recorded for each of the languages. We also
worked on a combined model that can handle Named Entity Recognition (NER) for
any of the five languages. The combined model works well for Named Entity
Recognition(NER) on each of the languages and with better performance compared
to individual NER models trained specifically on annotated data for the
specific language. The aim of this work is to share our learning on how
information extraction using Named Entity Recognition can be optimized for the
listed Nigerian Languages for inclusion, ease of deployment in production and
reusability of models. Models developed during this project are available on
GitHub https://git.io/JY0kk and an interactive web app
https://nigner.herokuapp.com/.
- Abstract(参考訳): 名前付きエンティティ認識(ner)の一般的な応用のほとんどは、英語や他の高可用性言語である。
本研究では,ナイジェリア語5言語(ナイジェリア語,ナイジェリア語,ピジン語,イグボ語,ヨルバ語,ハウサ語)の固有認識について述べる。
これらの言語は低リソースと見なされており、オープンソースで利用可能な自然言語処理作業はほとんど行われていない。
この研究では、個々のNERモデルをトレーニングし、各言語でメトリクスを記録する。
また、5つの言語のいずれかで名前付きエンティティ認識(NER)を処理できる統合モデルも開発しました。
組み合わせモデルは、それぞれの言語で名前付きエンティティ認識(NER)に対してうまく機能し、特定の言語の注釈付きデータに特化して訓練された個々のNERモデルと比較してパフォーマンスが良い。
本研究の目的は,ナイジェリアの一覧言語に対して,名前付きエンティティ認識を用いた情報抽出をどのように最適化できるか,本番環境への展開の容易さ,モデルの再利用性について学ぶことにある。
このプロジェクトで開発されたモデルはgithub https://git.io/jy0kkとインタラクティブなwebアプリhttps://nigner.herokuapp.com/で入手できる。
関連論文リスト
- Fine-tuning Pre-trained Named Entity Recognition Models For Indian Languages [6.7638050195383075]
課題を分析し,インド語の多言語名称認識に適した手法を提案する。
主要な2つのインド語族から4つのインド語に対する40K文の注釈付きエンティティコーパスを提示する。
我々は、我々のモデルの有用性を裏付けるインド言語のための、全く見当たらないベンチマークデータセットにおいて、同等のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-05-08T05:54:54Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Enhancing Low Resource NER Using Assisting Language And Transfer
Learning [0.7340017786387767]
私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-10T16:31:04Z) - Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named
Entity Recognition [0.7874708385247353]
我々は、ヒンディー語やマラタイ語のような低リソースのインドの言語について、NERについて検討する。
BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、公開されているHindiおよびMarathi NERデータセットでそれらをベンチマークする。
モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:41Z) - CL-NERIL: A Cross-Lingual Model for NER in Indian Languages [0.5926203312586108]
本稿では,インドの言語を対象としたNERのエンドツーエンドフレームワークを提案する。
我々は、英語とインド語の並列コーパスと英語のNERデータセットを利用する。
Hindi、Bengali、Gujaratiの3言語に対して手動でアノテートしたテストセットを提示する。
論文 参考訳(メタデータ) (2021-11-23T12:09:15Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。