論文の概要: WikiGUM: Exhaustive Entity Linking for Wikification in 12 Genres
- arxiv url: http://arxiv.org/abs/2109.07449v1
- Date: Wed, 15 Sep 2021 17:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 16:02:04.793015
- Title: WikiGUM: Exhaustive Entity Linking for Wikification in 12 Genres
- Title(参考訳): WikiGUM:12世代で暗号化されたエンティティリンク
- Authors: Jessica Lin, Amir Zeldes
- Abstract要約: ウィキガム(WikiGUM)は、名前付きエンティティのすべての言及を網羅した、完全に精巧なデータセットである。
データセットは12のジャンルで書かれており、その多くはこれまでEntity Linkingに含まれていない。
- 参考スコア(独自算出の注目度): 6.619650459583443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Previous work on Entity Linking has focused on resources targeting non-nested
proper named entity mentions, often in data from Wikipedia, i.e. Wikification.
In this paper, we present and evaluate WikiGUM, a fully wikified dataset,
covering all mentions of named entities, including their non-named and
pronominal mentions, as well as mentions nested within other mentions. The
dataset covers a broad range of 12 written and spoken genres, most of which
have not been included in Entity Linking efforts to date, leading to poor
performance by a pretrained SOTA system in our evaluation. The availability of
a variety of other annotations for the same data also enables further research
on entities in context.
- Abstract(参考訳): エンティティリンクに関する以前の研究は、ウィキペディアのデータ、すなわちウィキフィケーション(wikification)でよく見られる、ネストのない固有な名前付きエンティティ参照をターゲットにしたリソースに焦点を当ててきた。
本稿では, WikiGUMについて, 名前のない, プロノミナルな言及を含む, 名前付きエンティティの言及をすべて網羅した, 完全精巧なデータセットを提示し, 評価する。
このデータセットは12種類のテキストと音声のジャンルをカバーしており、そのほとんどはエンティティリンクに含まれておらず、事前学習されたsomaシステムによるパフォーマンスが低下している。
同じデータに対するさまざまなアノテーションが利用可能になったことで、コンテキスト内のエンティティに関するさらなる研究が可能になる。
関連論文リスト
- Evaluating D-MERIT of Partial-annotation on Information Retrieval [77.44452769932676]
検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。
部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
論文 参考訳(メタデータ) (2024-06-23T08:24:08Z) - Wiki Entity Summarization Benchmark [9.25319552487389]
エンティティの要約は知識グラフにおけるエンティティの簡潔な要約を計算することを目的としている。
既存のデータセットとベンチマークは、しばしば数百のエンティティに制限される。
我々は、エンティティ、要約、およびそれらの接続からなる包括的なベンチマークであるWikESを提案する。
論文 参考訳(メタデータ) (2024-06-12T17:22:00Z) - Entity Disambiguation via Fusion Entity Decoding [68.77265315142296]
より詳細なエンティティ記述を持つエンティティを曖昧にするためのエンコーダ・デコーダモデルを提案する。
GERBILベンチマークでは、EntQAと比較して、エンド・ツー・エンドのエンティティリンクが+1.5%改善されている。
論文 参考訳(メタデータ) (2024-04-02T04:27:54Z) - TempEL: Linking Dynamically Evolving and Newly Emerging Entities [50.980331847622026]
進化を続ける世界では、エンティティは時間とともに変化し、これまで存在していなかった、あるいは未知の、新しいエンティティが現れます。
本研究では,この進化シナリオが,十分に確立されたエンティティリンク(EL)タスクの性能に与える影響について検討する。
我々は,2013年から2022年までの英語ウィキペディアスナップショットからなるエンティティリンクデータセットであるTempELを紹介した。
論文 参考訳(メタデータ) (2023-02-05T22:34:36Z) - Building and Evaluating Universal Named-Entity Recognition English
corpus [0.0]
本稿では、自動的にアノテーション付きコーパスを生成するためのUniversal Named Entity Frameworkの適用について述べる。
ウィキペディアのデータとメタデータとDBpedia情報を抽出するワークフローを用いて、説明と評価を行う英語データセットを生成した。
論文 参考訳(メタデータ) (2022-12-14T11:32:24Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - EDIN: An End-to-end Benchmark and Pipeline for Unknown Entity Discovery
and Indexing [28.62173704769311]
エンティティリンクに関する既存の作業は、ほとんどの場合、参照知識ベースが完成していると仮定するので、すべての言及をリンクすることができる。
本稿では,未知のエンティティ,すなわち知識ベースに記述されていないエンティティとラベル付き言及が存在しないエンティティを,既存のエンティティリンクシステムに統合しなくてはならない,未知のエンティティ発見とインデックス化のベンチマークを作成する。
密集検索ベースのエンティティリンクに基づいて構築されたEDINパイプラインは、コンテキスト内の未知のエンティティの参照を検知、クラスタ、インデックスする。
論文 参考訳(メタデータ) (2022-05-25T08:29:39Z) - Named Entity Recognition for Partially Annotated Datasets [1.3750624267664153]
一部注釈付きデータセットのための3つのトレーニング戦略と、Wikipediaから新しいエンティティのクラスのための新しいデータセットを導出するためのアプローチを比較している。
データ取得とトレーニングのアプローチを適切に検証するには、食品と医薬品という2つの新しいクラスのテストデータセットを手動でアノテートする。
論文 参考訳(メタデータ) (2022-04-19T18:17:09Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Knowledge-Rich Self-Supervised Entity Linking [58.838404666183656]
Knowledge-RIch Self-Supervision(KRISSBERT$)は400万のUMLSエンティティのためのユニバーサルエンティティリンカーである。
提案手法はゼロショット法と少数ショット法を仮定し,利用可能であればエンティティ記述やゴールドレファレンスラベルを簡単に組み込むことができる。
ラベル付き情報を一切使わずに400万のUMLSエンティティのためのユニバーサルエンティティリンカである$tt KRISSBERT$を生成する。
論文 参考訳(メタデータ) (2021-12-15T05:05:12Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。