論文の概要: Development of a WAZOBIA-Named Entity Recognition System
- arxiv url: http://arxiv.org/abs/2505.07884v1
- Date: Sat, 10 May 2025 22:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.253576
- Title: Development of a WAZOBIA-Named Entity Recognition System
- Title(参考訳): WAZOBIA-Named エンティティ認識システムの開発
- Authors: S. E Emedem, I. E Onyenwe, E. G Onyedinma,
- Abstract要約: 既存のNERシステムは、主に英語、ヨーロッパ、および他のいくつかのグローバル言語に焦点を当てており、リソース不足の言語には大きなギャップを残している。
本研究は,ナイジェリアで著名な3つの言語であるHausa,Yoruba,Igboに合わせたWAZObia-NERシステムの開発について述べる。
このシステムは0.9511の精度、0.9400のリコール、0.9564のF1スコア、0.9301の精度を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition NER is very crucial for various natural language processing applications, including information extraction, machine translation, and sentiment analysis. Despite the ever-increasing interest in African languages within computational linguistics, existing NER systems focus mainly on English, European, and a few other global languages, leaving a significant gap for under-resourced languages. This research presents the development of a WAZOBIA-NER system tailored for the three most prominent Nigerian languages: Hausa, Yoruba, and Igbo. This research begins with a comprehensive compilation of annotated datasets for each language, addressing data scarcity and linguistic diversity challenges. Exploring the state-of-the-art machine learning technique, Conditional Random Fields (CRF) and deep learning models such as Bidirectional Long Short-Term Memory (BiLSTM), Bidirectional Encoder Representation from Transformers (Bert) and fine-tune with a Recurrent Neural Network (RNN), the study evaluates the effectiveness of these approaches in recognizing three entities: persons, organizations, and locations. The system utilizes optical character recognition (OCR) technology to convert textual images into machine-readable text, thereby enabling the Wazobia system to accept both input text and textual images for extraction purposes. The system achieved a performance of 0.9511 in precision, 0.9400 in recall, 0.9564 in F1-score, and 0.9301 in accuracy. The model's evaluation was conducted across three languages, with precision, recall, F1-score, and accuracy as key assessment metrics. The Wazobia-NER system demonstrates that it is feasible to build robust NER tools for under-resourced African languages using current NLP frameworks and transfer learning.
- Abstract(参考訳): 名前付きエンティティ認識 NERは、情報抽出、機械翻訳、感情分析を含む様々な自然言語処理アプリケーションにとって非常に重要である。
計算言語学におけるアフリカ語への関心はますます高まっているが、既存のNERシステムは、主に英語、ヨーロッパ語、および他のいくつかのグローバル言語に焦点を絞っている。
本研究は,ナイジェリアの最も著名な3言語であるHausa,Yoruba,Igboに合わせたWAZOBIA-NERシステムの開発について述べる。
この研究は、各言語に対する注釈付きデータセットの包括的なコンパイルから始まり、データの不足と言語多様性の課題に対処する。
現状の機械学習技術、条件付きランダムフィールド(CRF)、双方向長短期記憶(BiLSTM)、トランスフォーマー(Bert)からの双方向エンコーダ表現(Bert)、リカレントニューラルネットワーク(RNN)によるファインチューンといったディープラーニングモデルを探索し、人、組織、場所の3つの実体を認識する上で、これらのアプローチの有効性を評価する。
このシステムは、光学文字認識(OCR)技術を用いて、テキストイメージを機械可読テキストに変換することにより、入力テキストとテキストイメージの両方を抽出目的で受け入れる。
このシステムは0.9511の精度、0.9400のリコール、0.9564のF1スコア、0.9301の精度を達成した。
このモデルの評価は、重要な評価指標として精度、リコール、F1スコア、精度の3つの言語で実施された。
Wazobia-NERシステムは、現在のNLPフレームワークとトランスファーラーニングを使用して、アンダーリソースのアフリカ言語向けの堅牢なNERツールを構築することが可能であることを示す。
関連論文リスト
- A Multilingual Sentiment Lexicon for Low-Resource Language Translation using Large Languages Models and Explainable AI [0.0]
南アフリカとDRCは、ズールー語、セペディ語、アフリカーンス語、フランス語、英語、ツィルバ語などの言語と共に複雑な言語景観を呈している。
この研究はフランス語とツィルバ語用に設計された多言語辞書を開発し、英語、アフリカーンス語、セペディ語、ズールー語への翻訳を含むように拡張された。
総合的なテストコーパスは、感情を予測するためにトレーニングされた機械学習モデルを使用して、翻訳と感情分析タスクをサポートするために作成される。
論文 参考訳(メタデータ) (2024-11-06T23:41:18Z) - UniPSDA: Unsupervised Pseudo Semantic Data Augmentation for Zero-Shot Cross-Lingual Natural Language Understanding [31.272603877215733]
言語間の表現学習は、リソースに富んだデータからリソースに密着したデータへ知識を伝達し、異なる言語の意味理解能力を改善する。
言語間自然言語理解のためのunsupervised Pseudo Semantic Data Augmentation (UniPSDA) 機構を提案する。
論文 参考訳(メタデータ) (2024-06-24T07:27:01Z) - Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - BELT:Bootstrapping Electroencephalography-to-Language Decoding and
Zero-Shot Sentiment Classification by Natural Language Supervision [31.382825932199935]
提案手法は,脳波表現学習をブートストラップする汎用的で効率的なフレームワークである。
意味情報とゼロショットの一般化を理解するための大きなLM能力により、BELTはインターネットスケールのデータセットで訓練された大規模なLMを使用する。
脳から言語への翻訳やゼロショット感情分類を含む2つの特徴ある脳復号タスクについて、最先端の成果を得た。
論文 参考訳(メタデータ) (2023-09-21T13:24:01Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。