論文の概要: Building and Evaluating Universal Named-Entity Recognition English
corpus
- arxiv url: http://arxiv.org/abs/2212.07162v1
- Date: Wed, 14 Dec 2022 11:32:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:54:08.356803
- Title: Building and Evaluating Universal Named-Entity Recognition English
corpus
- Title(参考訳): ユニバーサル名前付きエンティティ認識英語コーパスの構築と評価
- Authors: Diego Alves, Gaurish Thakkar, Marko Tadi\'c
- Abstract要約: 本稿では、自動的にアノテーション付きコーパスを生成するためのUniversal Named Entity Frameworkの適用について述べる。
ウィキペディアのデータとメタデータとDBpedia情報を抽出するワークフローを用いて、説明と評価を行う英語データセットを生成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This article presents the application of the Universal Named Entity framework
to generate automatically annotated corpora. By using a workflow that extracts
Wikipedia data and meta-data and DBpedia information, we generated an English
dataset which is described and evaluated. Furthermore, we conducted a set of
experiments to improve the annotations in terms of precision, recall, and
F1-measure. The final dataset is available and the established workflow can be
applied to any language with existing Wikipedia and DBpedia. As part of future
research, we intend to continue improving the annotation process and extend it
to other languages.
- Abstract(参考訳): 本稿では、ユニバーサルネーム付きエンティティフレームワークを用いて、自動注釈付きコーパスを生成する。
ウィキペディアのデータとメタデータとDBpedia情報を抽出するワークフローを用いて、説明と評価を行う英語データセットを生成した。
さらに、精度、リコール、およびf1測定の観点からアノテーションを改善するための一連の実験を行った。
最終的なデータセットは利用可能であり、既存のWikipediaとDBpediaを持つ任意の言語に確立されたワークフローを適用することができる。
今後の研究の一環として、アノテーションのプロセスを改善し、他の言語にも拡張するつもりです。
関連論文リスト
- Evaluating D-MERIT of Partial-annotation on Information Retrieval [77.44452769932676]
検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。
部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
論文 参考訳(メタデータ) (2024-06-23T08:24:08Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - FRASIMED: a Clinical French Annotated Resource Produced through
Crosslingual BERT-Based Annotation Projection [0.6116681488656472]
本稿では,言語横断的アノテーション投影による注釈付きデータセットの翻訳版を生成する手法を紹介する。
本報告では,フランスにおける2'051の合成臨床症例からなる注釈コーパスであるFRASIMED(Francial Annotated Resource with Semantic Information for Medical Detection)の作成について述べる。
論文 参考訳(メタデータ) (2023-09-19T17:17:28Z) - Building Multilingual Corpora for a Complex Named Entity Recognition and
Classification Hierarchy using Wikipedia and DBpedia [0.0]
多言語および階層型並列コーパスであるUNERデータセットについて述べる。
我々は,このタイプのデータセットを,DBpedia情報を備えたウィキペディアで利用可能なあらゆる言語で作成するために必要な開発手順について詳述する。
論文 参考訳(メタデータ) (2022-12-14T11:38:48Z) - Entity Cloze By Date: What LMs Know About Unseen Entities [79.34707800653597]
言語モデル(LM)は通常、大規模なコーパスで一度訓練され、更新されずに数年間使用される。
本研究では,LMの事前学習時に存在しなかった新しいエンティティについて,LMがどのような推論ができるのかを解析する枠組みを提案する。
本論文は,その発祥日によって索引付けされたエンティティのデータセットを,英語のウィキペディア記事と組み合わせて作成し,各エンティティに関する文章を検索する。
論文 参考訳(メタデータ) (2022-05-05T17:59:31Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - CREER: A Large-Scale Corpus for Relation Extraction and Entity
Recognition [9.54366784050374]
CREERデータセットはStanford CoreNLP Annotatorを使用して、ウィキペディアのプレーンテキストからリッチ言語構造をキャプチャする。
このデータセットは広く使われている言語およびセマンティックアノテーションに従い、ほとんどの自然言語処理タスクだけでなくデータセットのスケーリングにも使用できる。
論文 参考訳(メタデータ) (2022-04-27T05:43:21Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - WikiGUM: Exhaustive Entity Linking for Wikification in 12 Genres [6.619650459583443]
ウィキガム(WikiGUM)は、名前付きエンティティのすべての言及を網羅した、完全に精巧なデータセットである。
データセットは12のジャンルで書かれており、その多くはこれまでEntity Linkingに含まれていない。
論文 参考訳(メタデータ) (2021-09-15T17:35:24Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - UNER: Universal Named-Entity RecognitionFramework [0.0]
私たちは、最初の多言語UNERコーパス(SETimesparallelコーパス)を作成します。
英語のSETimescorpusは、既存のツールと知識ベースを使って注釈付けされる。
結果として得られるアノテーションは、SE-Timesコーパス内の他の言語に自動的に伝達される。
論文 参考訳(メタデータ) (2020-10-23T13:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。