論文の概要: OpenNER 1.0: Standardized Open-Access Named Entity Recognition Datasets in 50+ Languages
- arxiv url: http://arxiv.org/abs/2412.09587v1
- Date: Thu, 12 Dec 2024 18:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:33:02.535225
- Title: OpenNER 1.0: Standardized Open-Access Named Entity Recognition Datasets in 50+ Languages
- Title(参考訳): OpenNER 1.0: 50以上の言語におけるエンティティ認識データセットの名称の標準化されたOpen-Access
- Authors: Chester Palen-Michel, Maxwell Pickering, Maya Kruse, Jonne Sälevä, Constantine Lignos,
- Abstract要約: オープンに利用可能なエンティティ認識(NER)データセットの標準化されたコレクションであるOpenNER 1.0を提示する。
我々は、元のデータセットを一様表現に標準化し、コーパス間でより一貫性のあるエンティティタイプ名をマップし、多言語マルチオントロジーNERの研究を可能にする構造でコレクションを提供する。
- 参考スコア(独自算出の注目度): 9.114488614939619
- License:
- Abstract: We present OpenNER 1.0, a standardized collection of openly available named entity recognition (NER) datasets. OpenNER contains 34 datasets spanning 51 languages, annotated in varying named entity ontologies. We correct annotation format issues, standardize the original datasets into a uniform representation, map entity type names to be more consistent across corpora, and provide the collection in a structure that enables research in multilingual and multi-ontology NER. We provide baseline models using three pretrained multilingual language models to compare the performance of recent models and facilitate future research in NER.
- Abstract(参考訳): オープンに利用可能なエンティティ認識(NER)データセットの標準化されたコレクションであるOpenNER 1.0を提示する。
OpenNERには51言語にまたがる34のデータセットが含まれている。
我々はアノテーションフォーマットの問題を修正し、元のデータセットを一様表現に標準化し、コーパス間でより一貫性のあるエンティティタイプ名をマップし、多言語およびマルチオントロジーNERの研究を可能にする構造でコレクションを提供する。
3つの事前訓練された多言語言語モデルを用いてベースラインモデルを提供し、最近のモデルの性能を比較し、NERにおける今後の研究を促進する。
関連論文リスト
- Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition [40.23783832224238]
我々は,Open NERの凝集性および効率的なデータセットであるB2NERDを提案する。
データセット間の一貫性のないエンティティ定義を検出し,識別可能なラベル名を用いて識別し,400以上のエンティティタイプを普遍的に分類する。
我々のB2NERモデルは、B2NERDでトレーニングされ、GPT-4を6.8-12.0 F1ポイント上回っており、15のデータセットと6つの言語にわたる3つのドメイン外のベンチマークで、以前のメソッドを上回っています。
論文 参考訳(メタデータ) (2024-06-17T03:57:35Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - In-Context Learning for Few-Shot Nested Named Entity Recognition [53.55310639969833]
数発のネストネストNERの設定に有効で革新的なICLフレームワークを導入する。
我々は、新しい実演選択機構であるEnDe retrieverを考案し、ICLプロンプトを改善する。
EnDe検索では,意味的類似性,境界類似性,ラベル類似性という3種類の表現学習を行うために,コントラスト学習を用いる。
論文 参考訳(メタデータ) (2024-02-02T06:57:53Z) - Universal NER: A Gold-Standard Multilingual Named Entity Recognition Benchmark [39.01204607174688]
オープンなコミュニティ主導プロジェクトであるUniversal NER(UNER)を紹介し,多くの言語でゴールドスタンダードなNERベンチマークを開発する。
UNER v1には、12の異なる言語にまたがる言語間一貫性のあるスキーマで、名前付きエンティティで注釈付けされた18のデータセットが含まれている。
論文 参考訳(メタデータ) (2023-11-15T17:09:54Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity
Recognition [15.805414696789796]
我々は、11言語にわたる3つのドメイン(ウィキ文、質問、検索クエリ)をカバーする、名前付きエンティティ認識のための大規模な多言語データセットであるMultiCoNERを提案する。
このデータセットは、低コンテキストシナリオを含む、NERの現代的課題を表現するように設計されている。
論文 参考訳(メタデータ) (2022-08-30T20:45:54Z) - AsNER -- Annotated Dataset and Baseline for Assamese Named Entity
recognition [7.252817150901275]
提案されたNERデータセットは、ディープニューラルネットワークベースのアサマセ言語処理のための重要なリソースである可能性が高い。
我々は、NERモデルをトレーニングしてデータセットをベンチマークし、教師付きエンティティ認識のための最先端アーキテクチャを用いて評価する。
全てのベースラインの中で最も高いF1スコアは、単語埋め込み法として MuRIL を使用する場合、80.69%の精度を達成する。
論文 参考訳(メタデータ) (2022-07-07T16:45:55Z) - Simple Questions Generate Named Entity Recognition Datasets [18.743889213075274]
この研究は、単純な自然言語の質問によってNERデータセットを自動的に生成する、要求対生成のアプローチを導入している。
我々のモデルは、4つの異なる領域にわたる6つのNERベンチマークにおいて、以前の弱い教師付きモデルよりも大幅に優れています。
自然言語でNERのニーズを定式化することで、アワードのようなきめ細かいエンティティタイプのためのNERモデルを構築することもできます。
論文 参考訳(メタデータ) (2021-12-16T11:44:38Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。