Fugu-MT 論文翻訳(概要): Cluster-based Mention Typing for Named Entity Disambiguation

論文の概要: Cluster-based Mention Typing for Named Entity Disambiguation

arxiv url: http://arxiv.org/abs/2109.11389v1
Date: Thu, 23 Sep 2021 14:19:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-24 17:57:37.377923
Title: Cluster-based Mention Typing for Named Entity Disambiguation
Title（参考訳）: 名前付きエンティティの曖昧化のためのクラスタベースメンションタイピング
Authors: Arda \c{C}elebi and Arzucan \"Ozg\"ur
Abstract要約: クラスタベースの参照型付けは、そのコンテキストに基づいて、与えられた参照の型を予測するために提案される。複数のコンテキストレベルでエンティティを表現し、各レベルに基づいて異なるクラスタリング(と型付けモデル)を取得します。本システムは, 4つのデファクトテストセットの最先端レベルに関して, ランダム化テストに基づいて, より優れた, あるいは同等の結果を得る。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An entity mention in text such as "Washington" may correspond to many different named entities such as the city "Washington D.C." or the newspaper "Washington Post." The goal of named entity disambiguation is to identify the mentioned named entity correctly among all possible candidates. If the type (e.g. location or person) of a mentioned entity can be correctly predicted from the context, it may increase the chance of selecting the right candidate by assigning low probability to the unlikely ones. This paper proposes cluster-based mention typing for named entity disambiguation. The aim of mention typing is to predict the type of a given mention based on its context. Generally, manually curated type taxonomies such as Wikipedia categories are used. We introduce cluster-based mention typing, where named entities are clustered based on their contextual similarities and the cluster ids are assigned as types. The hyperlinked mentions and their context in Wikipedia are used in order to obtain these cluster-based types. Then, mention typing models are trained on these mentions, which have been labeled with their cluster-based types through distant supervision. At the named entity disambiguation phase, first the cluster-based types of a given mention are predicted and then, these types are used as features in a ranking model to select the best entity among the candidates. We represent entities at multiple contextual levels and obtain different clusterings (and thus typing models) based on each level. As each clustering breaks the entity space differently, mention typing based on each clustering discriminates the mention differently. When predictions from all typing models are used together, our system achieves better or comparable results based on randomization tests with respect to the state-of-the-art levels on four defacto test sets.
Abstract（参考訳）: ワシントン」のようなテキストで言及される実体は、「ワシントンd.c.」や「ワシントンポスト」といった多くの異なる名前の実体に対応している。名前付きエンティティの曖昧さの目標は、上記の名前付きエンティティをすべての候補の中から正しく識別することである。上記のエンティティの型(例えば、場所や人物)がコンテキストから正しく予測できるならば、起こりそうにない候補に低い確率を割り当てることで、適切な候補を選択する機会を増加させることができる。本稿では、名前付きエンティティの曖昧さに対するクラスタベースの参照型付けを提案する。言及型付けの目的は、その文脈に基づいて与えられた言及の型を予測することである。一般的に、ウィキペディアのカテゴリなどの手作業による分類が用いられる。名前付きエンティティは、そのコンテキストの類似性に基づいてクラスタ化され、クラスタidは型として割り当てられる。ハイパーリンクされた言及とウィキペディアのコンテキストは、これらのクラスタベースの型を取得するために使用される。次に、参照型付けモデルをこれらの言及に基づいてトレーニングし、遠方の監督を通じてクラスタベースの型にラベル付けする。名前付きエンティティ曖昧化フェーズでは、まず、与えられた参照のクラスタベースのタイプを予測し、これらのタイプをランキングモデルの特徴として使用し、候補の中から最高のエンティティを選択する。複数のコンテキストレベルでエンティティを表現し、各レベルに基づいて異なるクラスタリング(と型付けモデル)を取得します。各クラスタリングがエンティティ空間を別々に分割すると、各クラスタリングに基づく型付けが参照を別々に識別する。全てのタイピングモデルからの予測が一緒に使われる場合、システムは4つのデファクトテストセットの最先端レベルに対してランダム化テストに基づいて、より良い結果または比較結果を得る。

関連論文リスト

Language-driven Fine-grained Retrieval [56.619978313798875]
LaFGは、Fine-Grained Retrievalのための言語駆動フレームワークである。クラス名を大きな言語モデルと視覚言語モデルを使用して属性レベルの監視に変換する。グローバルプロンプトテンプレートは、カテゴリ固有の言語プロトタイプに集約されたカテゴリ関連属性を選択する。
論文参考訳（メタデータ） (2025-12-06T02:56:55Z)
ProxAnn: Use-Oriented Evaluations of Topic Models and Document Clustering [52.19512723549318]
我々は,実践者の実世界のモデル利用を反映したスケーラブルなヒューマン評価プロトコルを設計する。このプロトコルを用いて、さまざまなトピックモデルから出力された大量のクラウドワーカーアノテーションを収集する。次に、これらのアノテーションを用いて自動プロキシの検証を行い、最適なLCMプロキシが人間のアノテーションと統計的に区別できないことを発見した。
論文参考訳（メタデータ） (2025-07-01T15:00:55Z)
Seed-Guided Fine-Grained Entity Typing in Science and Engineering Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文参考訳（メタデータ） (2024-01-23T22:36:03Z)
Generalized Category Discovery with Large Language Models in the Loop [10.440661581492723]
トレーニングループにLarge Language Modelを導入する,エンドツーエンドのアクティブラーニングフレームワークであるLoopを提案する。ループはSOTAモデルよりも大きなマージンで優れており、検出されたクラスタの正確なカテゴリ名を生成する。
論文参考訳（メタデータ） (2023-12-18T02:55:14Z)
Information Retrieval in long documents: Word clustering approach for improving Semantics [0.0]
本稿では,長い文書の場合のセマンティック情報検索のためのディープニューラルネットワークの代替案を提案する。クラスタリング技術を活用したこの新しいアプローチは、長文と短文を対象とする情報検索システムにおける単語の意味を考慮に入れている。
論文参考訳（メタデータ） (2023-02-20T18:32:57Z)
Domain-Generalizable Multiple-Domain Clustering [55.295300263404265]
本研究は、教師なし領域一般化の問題を、ラベル付きサンプルが存在しない場合(完全に教師なし)に一般化する。我々は複数のソースドメインからラベルのないサンプルを付与し、サンプルを意味的に関連するクラスタに割り当てる共有予測器を学習することを目指している。評価は、これまで見つからなかったドメインのクラスタ割り当てを予測することで行われる。
論文参考訳（メタデータ） (2023-01-31T10:24:50Z)
The Fellowship of the Authors: Disambiguating Names from Social Network Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。 BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文参考訳（メタデータ） (2022-08-31T21:51:55Z)
Out-of-Category Document Identification Using Target-Category Names as Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文参考訳（メタデータ） (2021-11-24T21:01:25Z)
Query and Extract: Refining Event Extraction as Type-oriented Binary Decoding [51.57864297948228]
本稿では,自然言語クエリとしてイベントタイプと引数ロールを取り入れた新しいイベント抽出フレームワークを提案する。我々のフレームワークは、イベントタイプや引数ロールと入力テキストとのセマンティックな相関をよりよく捉えるための注意機構の恩恵を受ける。
論文参考訳（メタデータ） (2021-10-14T15:49:40Z)
Modeling Fine-Grained Entity Types with Box Embeddings [32.85605894725522]
きめ細かいエンティティタイプのラベルの階層を表現するために,ボックス埋め込みの能力を検討する。我々は,このアプローチをベクトル型付けモデルと比較し,いくつかのエンティティ型付けベンチマークで最先端のパフォーマンスを観察した。
論文参考訳（メタデータ） (2021-01-02T00:59:10Z)
Text Classification Using Label Names Only: A Language Model Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文参考訳（メタデータ） (2020-10-14T17:06:41Z)
Empower Entity Set Expansion via Language Model Probing [58.78909391545238]
既存の拡張方法は、コンテキスト特徴を適応的に選択し、新しいエンティティを抽出することで、シードエンティティをブートストラップする。エンティティセット拡張の鍵となる課題は、クラスセマンティクスをシフトし、後のイテレーションで累積エラーにつながる曖昧なコンテキスト機能を選択することを避けることである。セマンティックドリフト問題に対処するために、自動生成されたクラス名を活用する新しい反復的集合拡張フレームワークを提案する。
論文参考訳（メタデータ） (2020-04-29T00:09:43Z)
Fine-Grained Named Entity Typing over Distantly Supervised Data Based on Refined Representations [16.30478830298353]
Fine-Grained Named Entity Typing (FG-NET) は自然言語処理(NLP)の鍵となるコンポーネントである本稿では,コーパスレベルの文脈的手がかりをエンド分類に先立ち,ノイズの多い参照表現を洗練させるエッジ重み付き注意グラフ畳み込みネットワークを提案する。実験により,提案モデルではマクロf1とマイクロf1の相対スコアが10.2%,マクロf1が8.3%であった。
論文参考訳（メタデータ） (2020-04-07T17:26:36Z)
E2EET: From Pipeline to End-to-end Entity Typing via Transformer-Based Embeddings [7.431445082017672]
エンティティタイピング(ET)と呼ばれる新しいタイプのエンティティタイピングを提案する。 ETは、各エンティティの言及を1つ以上のクラスラベルでラベル付けする。本稿では,参照レベルモデルに対するトランスフォーマーベースの埋め込みと,Bi-GRUを用いたエンドツーエンドモデルを用いてコンテキストを組み込むことを提案する。広範囲にわたるアブレーション研究は、参照レベルのモデルに対する文脈的埋め込みの有効性と、エンティティ型付けのためのエンドツーエンドモデルの競争性を示している。
論文参考訳（メタデータ） (2020-03-23T06:46:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。