論文の概要: Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking
- arxiv url: http://arxiv.org/abs/2202.13404v1
- Date: Sun, 27 Feb 2022 17:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 15:35:53.150742
- Title: Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking
- Title(参考訳): Wikidata Entity Linkingのためのエンティティプロファイル生成による候補検索の改善
- Authors: Tuan Manh Lai, Heng Ji, ChengXiang Zhai
- Abstract要約: 本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
- 参考スコア(独自算出の注目度): 76.00737707718795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entity linking (EL) is the task of linking entity mentions in a document to
referent entities in a knowledge base (KB). Many previous studies focus on
Wikipedia-derived KBs. There is little work on EL over Wikidata, even though it
is the most extensive crowdsourced KB. The scale of Wikidata can open up many
new real-world applications, but its massive number of entities also makes EL
challenging. To effectively narrow down the search space, we propose a novel
candidate retrieval paradigm based on entity profiling. Wikidata entities and
their textual fields are first indexed into a text search engine (e.g.,
Elasticsearch). During inference, given a mention and its context, we use a
sequence-to-sequence (seq2seq) model to generate the profile of the target
entity, which consists of its title and description. We use the profile to
query the indexed search engine to retrieve candidate entities. Our approach
complements the traditional approach of using a Wikipedia anchor-text
dictionary, enabling us to further design a highly effective hybrid method for
candidate retrieval. Combined with a simple cross-attention reranker, our
complete EL framework achieves state-of-the-art results on three Wikidata-based
datasets and strong performance on TACKBP-2010.
- Abstract(参考訳): エンティティリンク(EL)は、ドキュメント内のエンティティの参照を知識ベース(KB)内の参照エンティティにリンクするタスクである。
以前の多くの研究はウィキペディア由来のKBに焦点を当てていた。
Wikidata上では、最も大規模なクラウドソースKBであるにもかかわらず、ELに関する作業はほとんどない。
wikidataのスケールは多くの新しい現実世界のアプリケーションを開くことができるが、その膨大な数のエンティティもまたelを困難にする。
検索空間を効果的に狭めるために,エンティティプロファイリングに基づく新しい候補検索パラダイムを提案する。
Wikidataエンティティとそのテキストフィールドは、まずテキスト検索エンジン(Elasticsearchなど)にインデックスされる。
参照とそのコンテキストを考慮した推論では、シーケンシャル・ツー・シーケンス(seq2seq)モデルを使用して、そのタイトルと記述からなる対象エンティティのプロファイルを生成する。
プロファイルを使用してインデックス付き検索エンジンをクエリし、候補エンティティを検索します。
提案手法は,wikipediaアンカーテキスト辞書を用いた従来の手法を補完するものであり,より効果的な候補検索のためのハイブリッド手法を設計できる。
単純なクロスアテンション・リランカと組み合わせて、3つのWikidataベースのデータセットの最先端結果とTACKBP-2010の強力なパフォーマンスを実現する。
関連論文リスト
- Scholarly Wikidata: Population and Exploration of Conference Data in Wikidata using LLMs [4.721309965816974]
我々は,Wikidataのインフラを活用して学術データを確実にアクセス可能にすることを提案する。
本研究は,セマンティックWeb関連カンファレンス105件のデータに着目し,ウィキデータに6000件以上のエンティティを拡張・追加する。
論文 参考訳(メタデータ) (2024-11-13T15:34:52Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Enriching Wikidata with Linked Open Data [4.311189028205597]
現在のリンクされたオープンデータ(LOD)ツールは、Wikidataのような大きなグラフの強化には適していない。
本稿では、ギャップ検出、ソース選択、スキーマアライメント、セマンティックバリデーションを含む新しいワークフローを提案する。
実験の結果,我々のワークフローは,高品質な外部LODソースからの数百万の新規ステートメントでWikidataを豊かにすることができることがわかった。
論文 参考訳(メタデータ) (2022-07-01T01:50:24Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Survey on English Entity Linking on Wikidata [3.8289963781051415]
Wikidataはコミュニティ主導の多言語知識グラフである。
現在のWikidata固有のEntity Linkingデータセットは、DBpediaのような他の知識グラフのためのスキームとアノテーションスキームの違いはない。
ほとんど全てのアプローチはラベルや時々記述のような特定の特性を用いるが、ハイパーリレーショナル構造のような特性は無視する。
論文 参考訳(メタデータ) (2021-12-03T16:02:42Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。