論文の概要: Development of a Dataset and a Deep Learning Baseline Named Entity
Recognizer for Three Low Resource Languages: Bhojpuri, Maithili and Magahi
- arxiv url: http://arxiv.org/abs/2009.06451v1
- Date: Mon, 14 Sep 2020 14:07:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 12:16:23.121740
- Title: Development of a Dataset and a Deep Learning Baseline Named Entity
Recognizer for Three Low Resource Languages: Bhojpuri, Maithili and Magahi
- Title(参考訳): Bhojpuri, Maithili, Magahiの3つの低資源言語のためのデータセットとディープラーニングベースラインを用いたエンティティ認識器の開発
- Authors: Rajesh Kumar Mundotiya, Shantanu Kumar, Ajeet kumar, Umesh Chandra
Chaudhary, Supriya Chauhan, Swasti Mishra, Praveen Gatla, Anil Kumar Singh
- Abstract要約: Bhojpuri、Maithili、Magahiは低資源言語であり、通常はPurvanchal言語として知られている。
本稿では、これらの言語からヒンディー語への翻訳のために開発された機械翻訳システムのためのNERベンチマークデータセットの開発に焦点をあてる。
- 参考スコア(独自算出の注目度): 0.983719084224035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Natural Language Processing (NLP) pipelines, Named Entity Recognition
(NER) is one of the preliminary problems, which marks proper nouns and other
named entities such as Location, Person, Organization, Disease etc. Such
entities, without a NER module, adversely affect the performance of a machine
translation system. NER helps in overcoming this problem by recognising and
handling such entities separately, although it can be useful in Information
Extraction systems also. Bhojpuri, Maithili and Magahi are low resource
languages, usually known as Purvanchal languages. This paper focuses on the
development of a NER benchmark dataset for the Machine Translation systems
developed to translate from these languages to Hindi by annotating parts of
their available corpora. Bhojpuri, Maithili and Magahi corpora of sizes 228373,
157468 and 56190 tokens, respectively, were annotated using 22 entity labels.
The annotation considers coarse-grained annotation labels followed by the
tagset used in one of the Hindi NER datasets. We also report a Deep Learning
based baseline that uses an LSTM-CNNs-CRF model. The lower baseline F1-scores
from the NER tool obtained by using Conditional Random Fields models are 96.73
for Bhojpuri, 93.33 for Maithili and 95.04 for Magahi. The Deep Learning-based
technique (LSTM-CNNs-CRF) achieved 96.25 for Bhojpuri, 93.33 for Maithili and
95.44 for Magahi.
- Abstract(参考訳): 自然言語処理(NLP)パイプラインにおいて、名前付きエンティティ認識(NER)は、適切な名詞と、ロケーション、パーソナリティ、組織、病気などの他の名前付きエンティティを示す予備的な問題の1つである。
NERモジュールを持たないそのようなエンティティは、機械翻訳システムの性能に悪影響を及ぼす。
NERはこれらのエンティティを別々に認識し処理することでこの問題を克服するのに役立つが、情報抽出システムでも有用である。
Bhojpuri、Maithili、Magahiは低資源言語であり、通常はPurvanchal言語として知られている。
本稿では、これらの言語からヒンディー語への翻訳のために開発された機械翻訳システムのためのNERベンチマークデータセットの開発に焦点をあてる。
bhojpuri,maithili,magahi corporaのそれぞれサイズ228373,157468,58190のトークンを22のエンティティラベルでアノテートした。
このアノテーションは、Hindi NERデータセットの1つで使用されるタグセットに続く粗い粒度のアノテーションラベルを考慮している。
また,LSTM-CNNs-CRFモデルを用いたディープラーニングベースラインについても報告する。
Conditional Random Fields モデルを用いて得られた NER ツールの低いベースライン F1 スコアは Bhojpuri の 96.73 、Maithili の 93.33 、Magahi の 95.04 である。
Deep Learning-based Technique (LSTM-CNNs-CRF)はBhojpuriで96.25、Maithiliで93.33、Magahiで95.44を達成した。
関連論文リスト
- Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - On Significance of Subword tokenization for Low Resource and Efficient
Named Entity Recognition: A case study in Marathi [1.6383036433216434]
低リソース言語のためのNERに焦点をあて、インド語Marathiの文脈におけるケーススタディを示す。
BERTベースのサブワードトークン化器をバニラCNN/LSTMモデルに統合することで,効率的なNERのためのハイブリッド手法を提案する。
従来の単語ベースのトークン化器をBERTトークン化器に置き換えるという単純なアプローチは,バニラ単層モデルの精度をBERTのような深層事前学習モデルの精度に近づけることを示す。
論文 参考訳(メタデータ) (2023-12-03T06:53:53Z) - Developing a Named Entity Recognition Dataset for Tagalog [0.0]
このデータセットには、3つのエンティティタイプにわたる7.8kドキュメントが含まれている。
コーエンの$kappa$で測定されたアノテーション間の合意は0.81である。
今後Tagalog NLPの開発に刺激を与えるために、データと処理のコードを公開しました。
論文 参考訳(メタデータ) (2023-11-13T08:56:47Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - MphayaNER: Named Entity Recognition for Tshivenda [2.731098538540729]
本稿では,ニュース分野における最初のTshivenda NERコーパスであるMphayaNERを紹介する。
我々は,MphayaNER上でのテクスト微細調整によるNERベースラインを確立する。
また、Tshivendaと関連するBantu言語間のゼロショット転送についても検討し、chishonaとKiswahiliが最良の結果を示している。
論文 参考訳(メタデータ) (2023-04-08T08:03:58Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - AsNER -- Annotated Dataset and Baseline for Assamese Named Entity
recognition [7.252817150901275]
提案されたNERデータセットは、ディープニューラルネットワークベースのアサマセ言語処理のための重要なリソースである可能性が高い。
我々は、NERモデルをトレーニングしてデータセットをベンチマークし、教師付きエンティティ認識のための最先端アーキテクチャを用いて評価する。
全てのベースラインの中で最も高いF1スコアは、単語埋め込み法として MuRIL を使用する場合、80.69%の精度を達成する。
論文 参考訳(メタデータ) (2022-07-07T16:45:55Z) - L3Cube-MahaNER: A Marathi Named Entity Recognition Dataset and BERT
models [0.7874708385247353]
我々はマハーラーシュトラ州の住民によって顕著に話されるインドの言語であるマラティに焦点を当てている。
マラタイで最初の主要金本位認証データセットであるL3Cube-MahaNERを提示する。
最後に、mBERT、XLM-RoBERTa、IndicBERT、MahaBERTなどの異なるCNN、LSTM、Transformerベースのモデルでデータセットをベンチマークする。
論文 参考訳(メタデータ) (2022-04-12T18:32:15Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。