論文の概要: HiNER: A Large Hindi Named Entity Recognition Dataset
- arxiv url: http://arxiv.org/abs/2204.13743v1
- Date: Thu, 28 Apr 2022 19:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 08:41:04.905081
- Title: HiNER: A Large Hindi Named Entity Recognition Dataset
- Title(参考訳): HiNER: 巨大なヒンディー語でエンティティ認識データセット
- Authors: Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri,
Diptesh Kanojia, Pushpak Bhattacharyya
- Abstract要約: 本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。
データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。
我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
- 参考スコア(独自算出の注目度): 29.300418937509317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) is a foundational NLP task that aims to
provide class labels like Person, Location, Organisation, Time, and Number to
words in free text. Named Entities can also be multi-word expressions where the
additional I-O-B annotation information helps label them during the NER
annotation process. While English and European languages have considerable
annotated data for the NER task, Indian languages lack on that front -- both in
terms of quantity and following annotation standards. This paper releases a
significantly sized standard-abiding Hindi NER dataset containing 109,146
sentences and 2,220,856 tokens, annotated with 11 tags. We discuss the dataset
statistics in all their essential detail and provide an in-depth analysis of
the NER tag-set used with our data. The statistics of tag-set in our dataset
show a healthy per-tag distribution, especially for prominent classes like
Person, Location and Organisation. Since the proof of resource-effectiveness is
in building models with the resource and testing the model on benchmark data
and against the leader-board entries in shared tasks, we do the same with the
aforesaid data. We use different language models to perform the sequence
labelling task for NER and show the efficacy of our data by performing a
comparative evaluation with models trained on another dataset available for the
Hindi NER task. Our dataset helps achieve a weighted F1 score of 88.78 with all
the tags and 92.22 when we collapse the tag-set, as discussed in the paper. To
the best of our knowledge, no available dataset meets the standards of volume
(amount) and variability (diversity), as far as Hindi NER is concerned. We fill
this gap through this work, which we hope will significantly help NLP for
Hindi. We release this dataset with our code and models at
https://github.com/cfiltnlp/HiNER
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、Person、Location、Organisation、Time、Numberといったクラスラベルをフリーテキストで単語に提供するための基礎的なNLPタスクである。
名前付きエンティティは、NERアノテーションプロセス中に追加のI-O-Bアノテーション情報をラベル付けするマルチワード式でもある。
英語とヨーロッパの言語は、NERタスクに対してかなりの注釈付きデータを持っているが、インドの言語は、量と標準に従うという面で、その面に欠けている。
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む,相当規模の標準Hindi NERデータセットをリリースする。
データセットの統計を本質的な細部まで検討し,我々のデータで使用するnerタグセットの詳細な分析を行う。
データセット内のタグセットの統計は、タグごとの健全な分布を示し、特に人、場所、組織といった著名なクラスについて示しています。
リソース有効性の証明は、リソースを用いたモデルの構築と、ベンチマークデータによるモデルテスト、共有タスクにおけるリーダーボードエントリに対するテストであるので、上記のデータでも同様に行う。
我々は異なる言語モデルを用いてnerのシーケンスラベリングタスクを実行し、ヒンディー語nerタスクで利用可能な他のデータセットでトレーニングされたモデルとの比較評価を行い、データの有効性を示す。
我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
私たちの知る限りでは、hindi nerに関する限り、利用可能なデータセットはボリューム(最大)と可変(多様性)の基準を満たしていない。
私たちはこの作業でこのギャップを埋めることができ、NLPがヒンディー語に大いに役立つことを期待しています。
私たちはこのデータセットをhttps://github.com/cfiltnlp/hinerでコードとモデルでリリースします。
関連論文リスト
- Enhancing Low Resource NER Using Assisting Language And Transfer
Learning [0.7340017786387767]
私たちは、教師付きNERモデルをトレーニングするためにbaseBERT、AlBERT、RoBERTaを使用します。
複数の言語を用いて訓練されたモデルは、単一の言語よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-06-10T16:31:04Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - GPT-NER: Named Entity Recognition via Large Language Models [58.609582116612934]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。
GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。
これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文 参考訳(メタデータ) (2023-04-20T16:17:26Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Naamapadam: A Large-Scale Named Entity Annotated Data for Indic
Languages [15.214673043019399]
このデータセットには、3つの標準エンティティカテゴリから少なくとも100万のエンティティがアノテートされた400k以上の文が含まれている。
トレーニングデータセットは、Samanantar並列コーパスから自動的に作成される。
IndicNERは、Naamapadamトレーニングセットを微調整した多言語IndicBERTモデルである。
論文 参考訳(メタデータ) (2022-12-20T11:15:24Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - AsNER -- Annotated Dataset and Baseline for Assamese Named Entity
recognition [7.252817150901275]
提案されたNERデータセットは、ディープニューラルネットワークベースのアサマセ言語処理のための重要なリソースである可能性が高い。
我々は、NERモデルをトレーニングしてデータセットをベンチマークし、教師付きエンティティ認識のための最先端アーキテクチャを用いて評価する。
全てのベースラインの中で最も高いF1スコアは、単語埋め込み法として MuRIL を使用する場合、80.69%の精度を達成する。
論文 参考訳(メタデータ) (2022-07-07T16:45:55Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Mono vs Multilingual BERT: A Case Study in Hindi and Marathi Named
Entity Recognition [0.7874708385247353]
我々は、ヒンディー語やマラタイ語のような低リソースのインドの言語について、NERについて検討する。
BERTのさまざまなバリエーションであるbase-BERT、RoBERTa、AlBERTについて検討し、公開されているHindiおよびMarathi NERデータセットでそれらをベンチマークする。
モノリンガルのMahaRoBERTaモデルがMarathi NERに最適であるのに対し,マルチリンガルのXLM-RoBERTaはHindi NERに最適であることを示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:41Z) - CL-NERIL: A Cross-Lingual Model for NER in Indian Languages [0.5926203312586108]
本稿では,インドの言語を対象としたNERのエンドツーエンドフレームワークを提案する。
我々は、英語とインド語の並列コーパスと英語のNERデータセットを利用する。
Hindi、Bengali、Gujaratiの3言語に対して手動でアノテートしたテストセットを提示する。
論文 参考訳(メタデータ) (2021-11-23T12:09:15Z) - NEREL: A Russian Dataset with Nested Named Entities and Relations [55.69103749079697]
我々は、名前付きエンティティ認識と関係抽出のためのロシアのデータセットであるNERELを提案する。
56Kのアノテートされたエンティティと39Kのアノテートされたリレーションを含んでいる。
論文 参考訳(メタデータ) (2021-08-30T10:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。