論文の概要: Effect of forename string on author name disambiguation
- arxiv url: http://arxiv.org/abs/2102.03250v1
- Date: Fri, 5 Feb 2021 15:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 01:31:22.521045
- Title: Effect of forename string on author name disambiguation
- Title(参考訳): 著者名曖昧化に対する前名文字列の影響
- Authors: Jinseok Kim and Jenna Kim
- Abstract要約: 著者のフォアネームは、どの名前のインスタンスがあいまいか、どれが同じ著者を指す可能性が高いかを決定するために使用される。
本研究は,複数のラベル付きデータセットを用いた著者名不明瞭化における名前の貢献度を評価する。
- 参考スコア(独自算出の注目度): 8.160343645537106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In author name disambiguation, author forenames are used to decide which name
instances are disambiguated together and how much they are likely to refer to
the same author. Despite such a crucial role of forenames, their effect on the
performances of heuristic (string matching) and algorithmic disambiguation is
not well understood. This study assesses the contributions of forenames in
author name disambiguation using multiple labeled datasets under varying ratios
and lengths of full forenames, reflecting real-world scenarios in which an
author is represented by forename variants (synonym) and some authors share the
same forenames (homonym). Results show that increasing the ratios of full
forenames improves substantially the performances of both heuristic and
machine-learning-based disambiguation. Performance gains by algorithmic
disambiguation are pronounced when many forenames are initialized or homonym is
prevalent. As the ratios of full forenames increase, however, they become
marginal compared to the performances by string matching. Using a small portion
of forename strings does not reduce much the performances of both heuristic and
algorithmic disambiguation compared to using full-length strings. These
findings provide practical suggestions such as restoring initialized forenames
into a full-string format via record linkage for improved disambiguation
performances.
- Abstract(参考訳): 著者名の曖昧さでは、著者のフォアネームを使用して、どの名前インスタンスが一緒に曖昧になり、同じ著者を参照する可能性が高いかを決定します。
フォアネームのそのような重要な役割にもかかわらず、ヒューリスティック(文字列マッチング)とアルゴリズムの曖昧さのパフォーマンスに対するそれらの効果はよく理解されていません。
本研究は,複数のラベル付きデータセットを用いて著者名の曖昧さの寄与を評価し,著者が名前の変種(synonym)で表される実世界のシナリオを反映し,同じ名前(homonym)を共有する著者もいる。
その結果、フルフォアネームの比率を増やすことで、ヒューリスティックと機械学習に基づく曖昧さの両方のパフォーマンスが大幅に向上することを示した。
アルゴリズムによる曖昧さ回避によるパフォーマンス向上は、多くのforenameが初期化され、あるいはhomonymが一般的になったときに発音される。
しかし、フルフォアネームの比率が大きくなるにつれて、文字列マッチングによるパフォーマンスよりも限界となる。
フォアネーム文字列の少数の使用は、完全長文字列の使用に比べてヒューリスティックおよびアルゴリズム的曖昧さの両方のパフォーマンスを低下させるものではない。
これらの知見は、初期化されたフォアネームをレコードリンクを介してフルストリング形式に復元し、曖昧化性能を向上させるなどの実用的な提案を提供する。
関連論文リスト
- Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Author Name Disambiguation via Heterogeneous Network Embedding from
Structural and Semantic Perspectives [13.266320447769564]
名前の曖昧さは、複数の著者が同じ名前を持つなど、学術的なデジタル図書館で一般的である。
提案手法は主に異種ネットワークとクラスタリングのための表現学習に基づいている。
意味表現はNLPツールを使用して生成される。
論文 参考訳(メタデータ) (2022-12-24T11:22:34Z) - Influence Functions for Sequence Tagging Models [49.81774968547377]
影響関数を拡張して、予測を学習ポイントまで追跡し、それらに通知します。
本手法を用いて,系統的アノテーションの誤りを同定し,セグメント効果の実用性を示す。
論文 参考訳(メタデータ) (2022-10-25T17:13:11Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Bib2Auth: Deep Learning Approach for Author Disambiguation using
Bibliographic Data [4.817368273632451]
著者名と現実の実体をリンクする新しい手法を,共著者パターンと研究領域に頼って提案する。
教師付きディープラーニングモデルでは,著者と共著者との関係や研究領域を把握し,著者を識別する。
Bib2Authは比較的大きなデータセットで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-07-09T12:25:11Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Pairwise Learning for Name Disambiguation in Large-Scale Heterogeneous
Academic Networks [81.00481125272098]
本稿では,MA-PairRNN(Multi-view Attention-based Pairwise Recurrent Neural Network)を提案する。
MA-PairRNNは、不均一グラフ埋め込み学習とペアワイズ類似学習をフレームワークに統合する。
実世界の2つのデータセットの結果から、我々のフレームワークは名前の曖昧さに対するパフォーマンスを著しく一貫した改善をしていることがわかる。
論文 参考訳(メタデータ) (2020-08-30T06:08:20Z) - Interpretability Analysis for Named Entity Recognition to Understand
System Predictions and How They Can Improve [49.878051587667244]
名前付きエンティティ認識のためのLSTM-CRFアーキテクチャの性能について検討する。
文脈表現はシステムの性能に寄与するが、ハイパフォーマンスを駆動する主な要因は、名前トークン自体を学習することにある。
我々は、コンテキストのみからエンティティタイプを推測する可能性を評価するために、人間アノテーションを登録し、コンテキストのみのシステムによるエラーの大部分に対してエンティティタイプを推論することはできないが、改善の余地はいくつかある。
論文 参考訳(メタデータ) (2020-04-09T14:37:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。