論文の概要: Evaluating Entity Disambiguation and the Role of Popularity in
Retrieval-Based NLP
- arxiv url: http://arxiv.org/abs/2106.06830v1
- Date: Sat, 12 Jun 2021 18:27:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 15:22:20.591864
- Title: Evaluating Entity Disambiguation and the Role of Popularity in
Retrieval-Based NLP
- Title(参考訳): 検索型NLPにおけるエンティティの曖昧さの評価と人気度の役割
- Authors: Anthony Chen, Pallavi Gudipati, Shayne Longpre, Xiao Ling, Sameer
Singh
- Abstract要約: 本稿では,検索者のエンティティの曖昧さを評価するための評価ベンチマークを提案する。
我々は、AmbERセットを、それらのエンティティに関するクエリとともに名前を共有するエンティティの集合として定義します。
我々は、ファクトチェック、スロットフィリング、質問応答という3つの人気のあるオープンドメインタスクのためのAmbERセットを作成し、多様なレトリバーセットを評価します。
- 参考スコア(独自算出の注目度): 32.895028632221376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval is a core component for open-domain NLP tasks. In open-domain
tasks, multiple entities can share a name, making disambiguation an inherent
yet under-explored problem. We propose an evaluation benchmark for assessing
the entity disambiguation capabilities of these retrievers, which we call
Ambiguous Entity Retrieval (AmbER) sets. We define an AmbER set as a collection
of entities that share a name along with queries about those entities. By
covering the set of entities for polysemous names, AmbER sets act as a
challenging test of entity disambiguation. We create AmbER sets for three
popular open-domain tasks: fact checking, slot filling, and question answering,
and evaluate a diverse set of retrievers. We find that the retrievers exhibit
popularity bias, significantly under-performing on rarer entities that share a
name, e.g., they are twice as likely to retrieve erroneous documents on queries
for the less popular entity under the same name. These experiments on AmbER
sets show their utility as an evaluation tool and highlight the weaknesses of
popular retrieval systems.
- Abstract(参考訳): Retrievalは、オープンドメインのNLPタスクのコアコンポーネントである。
オープンドメインのタスクでは、複数のエンティティが名前を共有することができる。
本稿では,AmbER(Ambiguous Entity Retrieval)セットと呼ばれる,これらの検索のエンティティの曖昧さを評価するための評価ベンチマークを提案する。
我々は、AmbERセットを、それらのエンティティに関するクエリとともに名前を共有するエンティティの集合として定義します。
多文名のエンティティの集合をカバーすることで、AmbER セットはエンティティの曖昧さの挑戦的なテストとして機能する。
我々は、ファクトチェック、スロットフィリング、質問応答という3つの人気のあるオープンドメインタスクのためのAmbERセットを作成し、多様な検索セットを評価する。
検索者は人気バイアスを示しており、例えば、名前を共有する稀なエンティティでは、同じ名前であまり人気がないエンティティに対して、クエリの不正なドキュメントを検索する確率が2倍になる。
AmbER セットでのこれらの実験は,評価ツールとしての有用性を示し,一般的な検索システムの弱点を浮き彫りにする。
関連論文リスト
- On the Robustness of Document-Level Relation Extraction Models to Entity Name Variations [33.56352555780006]
本研究では,DocREモデルのエンティティ名のバリエーションに対する堅牢性について検討する。
本稿では,元となるエンティティ名をWikidataから名前に置き換えることで,エンティティにリネームされたドキュメントを生成するための原則的パイプラインを提案する。
実験結果から、3つの代表的なDocREモデルと2つのコンテキスト内モデルの両方が、エンティティ名のバリエーションに十分なロバスト性が欠如していることが判明した。
論文 参考訳(メタデータ) (2024-06-11T16:51:14Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Automatic Creation of Named Entity Recognition Datasets by Querying
Phrase Representations [20.00016240535205]
ほとんどの弱教師付きエンティティ認識モデルは、専門家によって提供されるドメイン固有の辞書に依存している。
高被覆擬似辞書を用いたNERデータセットを生成する新しいフレームワークであるHighGENを提案する。
5つのNERベンチマークデータセットの平均F1スコア4.7で、HighGENが前のベストモデルより優れていたことを実証する。
論文 参考訳(メタデータ) (2022-10-14T07:36:44Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Parallel Instance Query Network for Named Entity Recognition [73.30174490672647]
名前付きエンティティ認識(NER)は自然言語処理の基本課題である。
最近の研究は、名前付きエンティティ認識を読み取り理解タスクとして扱い、エンティティを抽出するためにタイプ固有のクエリを手動で構築している。
本稿では,グローバルかつ学習可能なインスタンスクエリを並列に抽出するParallel Instance Query Network (PIQN)を提案する。
論文 参考訳(メタデータ) (2022-03-20T13:01:25Z) - Empower Entity Set Expansion via Language Model Probing [58.78909391545238]
既存の拡張方法は、コンテキスト特徴を適応的に選択し、新しいエンティティを抽出することで、シードエンティティをブートストラップする。
エンティティセット拡張の鍵となる課題は、クラスセマンティクスをシフトし、後のイテレーションで累積エラーにつながる曖昧なコンテキスト機能を選択することを避けることである。
セマンティックドリフト問題に対処するために、自動生成されたクラス名を活用する新しい反復的集合拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T00:09:43Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。