論文の概要: Cluster-based Mention Typing for Named Entity Disambiguation
- arxiv url: http://arxiv.org/abs/2109.11389v1
- Date: Thu, 23 Sep 2021 14:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 17:57:37.377923
- Title: Cluster-based Mention Typing for Named Entity Disambiguation
- Title(参考訳): 名前付きエンティティの曖昧化のためのクラスタベースメンションタイピング
- Authors: Arda \c{C}elebi and Arzucan \"Ozg\"ur
- Abstract要約: クラスタベースの参照型付けは、そのコンテキストに基づいて、与えられた参照の型を予測するために提案される。
複数のコンテキストレベルでエンティティを表現し、各レベルに基づいて異なるクラスタリング(と型付けモデル)を取得します。
本システムは, 4つのデファクトテストセットの最先端レベルに関して, ランダム化テストに基づいて, より優れた, あるいは同等の結果を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An entity mention in text such as "Washington" may correspond to many
different named entities such as the city "Washington D.C." or the newspaper
"Washington Post." The goal of named entity disambiguation is to identify the
mentioned named entity correctly among all possible candidates. If the type
(e.g. location or person) of a mentioned entity can be correctly predicted from
the context, it may increase the chance of selecting the right candidate by
assigning low probability to the unlikely ones. This paper proposes
cluster-based mention typing for named entity disambiguation. The aim of
mention typing is to predict the type of a given mention based on its context.
Generally, manually curated type taxonomies such as Wikipedia categories are
used. We introduce cluster-based mention typing, where named entities are
clustered based on their contextual similarities and the cluster ids are
assigned as types. The hyperlinked mentions and their context in Wikipedia are
used in order to obtain these cluster-based types. Then, mention typing models
are trained on these mentions, which have been labeled with their cluster-based
types through distant supervision. At the named entity disambiguation phase,
first the cluster-based types of a given mention are predicted and then, these
types are used as features in a ranking model to select the best entity among
the candidates. We represent entities at multiple contextual levels and obtain
different clusterings (and thus typing models) based on each level. As each
clustering breaks the entity space differently, mention typing based on each
clustering discriminates the mention differently. When predictions from all
typing models are used together, our system achieves better or comparable
results based on randomization tests with respect to the state-of-the-art
levels on four defacto test sets.
- Abstract(参考訳): ワシントン」のようなテキストで言及される実体は、「ワシントンd.c.」や「ワシントンポスト」といった多くの異なる名前の実体に対応している。
名前付きエンティティの曖昧さの目標は、上記の名前付きエンティティをすべての候補の中から正しく識別することである。
上記のエンティティの型(例えば、場所や人物)がコンテキストから正しく予測できるならば、起こりそうにない候補に低い確率を割り当てることで、適切な候補を選択する機会を増加させることができる。
本稿では、名前付きエンティティの曖昧さに対するクラスタベースの参照型付けを提案する。
言及型付けの目的は、その文脈に基づいて与えられた言及の型を予測することである。
一般的に、ウィキペディアのカテゴリなどの手作業による分類が用いられる。
名前付きエンティティは、そのコンテキストの類似性に基づいてクラスタ化され、クラスタidは型として割り当てられる。
ハイパーリンクされた言及とウィキペディアのコンテキストは、これらのクラスタベースの型を取得するために使用される。
次に、参照型付けモデルをこれらの言及に基づいてトレーニングし、遠方の監督を通じてクラスタベースの型にラベル付けする。
名前付きエンティティ曖昧化フェーズでは、まず、与えられた参照のクラスタベースのタイプを予測し、これらのタイプをランキングモデルの特徴として使用し、候補の中から最高のエンティティを選択する。
複数のコンテキストレベルでエンティティを表現し、各レベルに基づいて異なるクラスタリング(と型付けモデル)を取得します。
各クラスタリングがエンティティ空間を別々に分割すると、各クラスタリングに基づく型付けが参照を別々に識別する。
全てのタイピングモデルからの予測が一緒に使われる場合、システムは4つのデファクトテストセットの最先端レベルに対してランダム化テストに基づいて、より良い結果または比較結果を得る。
関連論文リスト
- Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Generalized Category Discovery with Large Language Models in the Loop [10.440661581492723]
トレーニングループにLarge Language Modelを導入する,エンドツーエンドのアクティブラーニングフレームワークであるLoopを提案する。
ループはSOTAモデルよりも大きなマージンで優れており、検出されたクラスタの正確なカテゴリ名を生成する。
論文 参考訳(メタデータ) (2023-12-18T02:55:14Z) - Domain-Generalizable Multiple-Domain Clustering [55.295300263404265]
本研究は、教師なし領域一般化の問題を、ラベル付きサンプルが存在しない場合(完全に教師なし)に一般化する。
我々は複数のソースドメインからラベルのないサンプルを付与し、サンプルを意味的に関連するクラスタに割り当てる共有予測器を学習することを目指している。
評価は、これまで見つからなかったドメインのクラスタ割り当てを予測することで行われる。
論文 参考訳(メタデータ) (2023-01-31T10:24:50Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Query and Extract: Refining Event Extraction as Type-oriented Binary
Decoding [51.57864297948228]
本稿では,自然言語クエリとしてイベントタイプと引数ロールを取り入れた新しいイベント抽出フレームワークを提案する。
我々のフレームワークは、イベントタイプや引数ロールと入力テキストとのセマンティックな相関をよりよく捉えるための注意機構の恩恵を受ける。
論文 参考訳(メタデータ) (2021-10-14T15:49:40Z) - Modeling Fine-Grained Entity Types with Box Embeddings [32.85605894725522]
きめ細かいエンティティタイプのラベルの階層を表現するために,ボックス埋め込みの能力を検討する。
我々は,このアプローチをベクトル型付けモデルと比較し,いくつかのエンティティ型付けベンチマークで最先端のパフォーマンスを観察した。
論文 参考訳(メタデータ) (2021-01-02T00:59:10Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z) - Empower Entity Set Expansion via Language Model Probing [58.78909391545238]
既存の拡張方法は、コンテキスト特徴を適応的に選択し、新しいエンティティを抽出することで、シードエンティティをブートストラップする。
エンティティセット拡張の鍵となる課題は、クラスセマンティクスをシフトし、後のイテレーションで累積エラーにつながる曖昧なコンテキスト機能を選択することを避けることである。
セマンティックドリフト問題に対処するために、自動生成されたクラス名を活用する新しい反復的集合拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-29T00:09:43Z) - Fine-Grained Named Entity Typing over Distantly Supervised Data Based on
Refined Representations [16.30478830298353]
Fine-Grained Named Entity Typing (FG-NET) は自然言語処理(NLP)の鍵となるコンポーネントである
本稿では,コーパスレベルの文脈的手がかりをエンド分類に先立ち,ノイズの多い参照表現を洗練させるエッジ重み付き注意グラフ畳み込みネットワークを提案する。
実験により,提案モデルではマクロf1とマイクロf1の相対スコアが10.2%,マクロf1が8.3%であった。
論文 参考訳(メタデータ) (2020-04-07T17:26:36Z) - E2EET: From Pipeline to End-to-end Entity Typing via Transformer-Based
Embeddings [7.431445082017672]
エンティティタイピング(ET)と呼ばれる新しいタイプのエンティティタイピングを提案する。
ETは、各エンティティの言及を1つ以上のクラスラベルでラベル付けする。
本稿では,参照レベルモデルに対するトランスフォーマーベースの埋め込みと,Bi-GRUを用いたエンドツーエンドモデルを用いてコンテキストを組み込むことを提案する。
広範囲にわたるアブレーション研究は、参照レベルのモデルに対する文脈的埋め込みの有効性と、エンティティ型付けのためのエンドツーエンドモデルの競争性を示している。
論文 参考訳(メタデータ) (2020-03-23T06:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。