論文の概要: The Fellowship of the Authors: Disambiguating Names from Social Network
Context
- arxiv url: http://arxiv.org/abs/2209.00133v1
- Date: Wed, 31 Aug 2022 21:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:44:26.548639
- Title: The Fellowship of the Authors: Disambiguating Names from Social Network
Context
- Title(参考訳): 著者のフェローシップ:ソーシャルネットワークの文脈から名前の曖昧化
- Authors: Ryan Muther, David Smith
- Abstract要約: 各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
- 参考スコア(独自算出の注目度): 2.3605348648054454
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Most NLP approaches to entity linking and coreference resolution focus on
retrieving similar mentions using sparse or dense text representations. The
common "Wikification" task, for instance, retrieves candidate Wikipedia
articles for each entity mention. For many domains, such as bibliographic
citations, authority lists with extensive textual descriptions for each entity
are lacking and ambiguous named entities mostly occur in the context of other
named entities. Unlike prior work, therefore, we seek to leverage the
information that can be gained from looking at association networks of
individuals derived from textual evidence in order to disambiguate names. We
combine BERT-based mention representations with a variety of graph induction
strategies and experiment with supervised and unsupervised cluster inference
methods. We experiment with data consisting of lists of names from two domains:
bibliographic citations from CrossRef and chains of transmission (isnads) from
classical Arabic histories. We find that in-domain language model pretraining
can significantly improve mention representations, especially for larger
corpora, and that the availability of bibliographic information, such as
publication venue or title, can also increase performance on this task. We also
present a novel supervised cluster inference model which gives competitive
performance for little computational effort, making it ideal for situations
where individuals must be identified without relying on an exhaustive authority
list.
- Abstract(参考訳): エンティティリンクやコア参照解決に対するほとんどのNLPアプローチは、スパースや高密度テキスト表現を使って類似の言及を検索することに焦点を当てている。
例えば、一般的な「ウィキフィケーション」タスクは、各エンティティを参照するwikipediaの候補記事を取得する。
文献引用などの多くのドメインでは、各エンティティに関する広範なテキスト記述を持つ権威リストが欠落しており、他の名前付きエンティティの文脈ではほとんど曖昧な名前付きエンティティが生じる。
そこで本稿では, 先行研究と異なり, 文献的証拠から得られた個人同士の関連ネットワークから得られる情報を活用して, 名前の曖昧化を図る。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせるとともに,教師付きおよび教師なしクラスタ推論手法の実験を行う。
我々は、CrossRefの文献引用と古典アラビア語の歴史からの伝達の連鎖という2つのドメインの名前のリストからなるデータを用いて実験を行った。
ドメイン内言語モデルの事前学習は,特により大きなコーパスにおいて,参照表現を大幅に改善し,出版場所やタイトルなどの書誌情報の提供により,この課題に対するパフォーマンスの向上が期待できる。
また,計算能力の少ないクラスタ推論モデルを提案することで,個人を徹底的な権限リストに頼らずに識別できなければならない状況に最適であることを示す。
関連論文リスト
- Large-Scale Label Interpretation Learning for Few-Shot Named Entity Recognition [5.262708162539423]
名前付きエンティティ認識(NER)は、わずかな例だけでテキスト内の名前付きエンティティを検出する。
有望な研究の1つの行は、各エンティティタイプの自然言語記述を活用することである。
本稿では,新しい実体型の言語化を解釈する前に,強い意味が与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T08:22:44Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Author Name Disambiguation via Heterogeneous Network Embedding from
Structural and Semantic Perspectives [13.266320447769564]
名前の曖昧さは、複数の著者が同じ名前を持つなど、学術的なデジタル図書館で一般的である。
提案手法は主に異種ネットワークとクラスタリングのための表現学習に基づいている。
意味表現はNLPツールを使用して生成される。
論文 参考訳(メタデータ) (2022-12-24T11:22:34Z) - Improving Candidate Retrieval with Entity Profile Generation for
Wikidata Entity Linking [76.00737707718795]
本稿では,エンティティ・プロファイリングに基づく新しい候補探索パラダイムを提案する。
我々は、このプロファイルを使用してインデックス付き検索エンジンに問い合わせ、候補エンティティを検索する。
本手法は,ウィキペディアのアンカーテキスト辞書を用いた従来の手法を補完するものである。
論文 参考訳(メタデータ) (2022-02-27T17:38:53Z) - Named entity recognition architecture combining contextual and global
features [5.92351086183376]
名前付きエンティティ認識(NER)は、名前付きエンティティの特定と分類を目的とした情報抽出技術である。
我々は,XLNet のコンテキスト特徴と Graph Convolution Network (GCN) のグローバル特徴を組み合わせた NER の性能向上を提案する。
論文 参考訳(メタデータ) (2021-12-15T10:54:36Z) - Named Entity Recognition and Linking Augmented with Large-Scale
Structured Data [3.211619859724085]
BSNLP 2019とBSNLP 2021で開かれた第2回と第3回SlavNER共有タスクへの提出について述べる。
タスクは、スラブ語の多言語web文書における名前付きエンティティの分析に焦点を当てた。
私たちのソリューションは、非構造化文書と構造化文書の両方の大規模なコレクションを利用します。
論文 参考訳(メタデータ) (2021-04-27T20:10:18Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Pairwise Learning for Name Disambiguation in Large-Scale Heterogeneous
Academic Networks [81.00481125272098]
本稿では,MA-PairRNN(Multi-view Attention-based Pairwise Recurrent Neural Network)を提案する。
MA-PairRNNは、不均一グラフ埋め込み学習とペアワイズ類似学習をフレームワークに統合する。
実世界の2つのデータセットの結果から、我々のフレームワークは名前の曖昧さに対するパフォーマンスを著しく一貫した改善をしていることがわかる。
論文 参考訳(メタデータ) (2020-08-30T06:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。