論文の概要: Generating automatically labeled data for author name disambiguation: An
iterative clustering method
- arxiv url: http://arxiv.org/abs/2102.03272v1
- Date: Fri, 5 Feb 2021 16:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 01:56:48.600499
- Title: Generating automatically labeled data for author name disambiguation: An
iterative clustering method
- Title(参考訳): 著者名曖昧化のためのラベル付きデータの自動生成:反復クラスタリング手法
- Authors: Jinseok Kim, Jinmo Kim, and Jason Owen-Smith
- Abstract要約: 本稿では、電子メールアドレス、共著者名、引用参照を用いてラベル付きトレーニングデータを自動生成できることを示す。
各機能で名前インスタンスをマッチングするための高精度ルールは、外部の権威データベースを用いて決定される。
228Kの著者名インスタンスのうち26,566のインスタンスでテストされたこの反復クラスタリングは、ペアのF1 = 0.99で正確にラベル付けされたデータを生成した。
- 参考スコア(独自算出の注目度): 5.094623170336122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To train algorithms for supervised author name disambiguation, many studies
have relied on hand-labeled truth data that are very laborious to generate.
This paper shows that labeled training data can be automatically generated
using information features such as email address, coauthor names, and cited
references that are available from publication records. For this purpose,
high-precision rules for matching name instances on each feature are decided
using an external-authority database. Then, selected name instances in target
ambiguous data go through the process of pairwise matching based on the rules.
Next, they are merged into clusters by a generic entity resolution algorithm.
The clustering procedure is repeated over other features until further merging
is impossible. Tested on 26,566 instances out of the population of 228K author
name instances, this iterative clustering produced accurately labeled data with
pairwise F1 = 0.99. The labeled data represented the population data in terms
of name ethnicity and co-disambiguating name group size distributions. In
addition, trained on the labeled data, machine learning algorithms
disambiguated 24K names in test data with performance of pairwise F1 = 0.90 ~
0.92. Several challenges are discussed for applying this method to resolving
author name ambiguity in large-scale scholarly data.
- Abstract(参考訳): 教師付き著者名不明瞭さのアルゴリズムを訓練するために、多くの研究は手書きの真理データに頼っている。
本論文では, 電子メールアドレス, 共著者名, 引用レファレンスなどの情報を用いて, ラベル付きトレーニングデータを自動生成できることを示した。
この目的のために、各機能上の名前インスタンスをマッチングするための高精度なルールを外部権限データベースを用いて決定する。
そして、対象のあいまいなデータで選択された名前インスタンスは、ルールに基づいてペアワイズマッチングのプロセスを経る。
次に、汎用エンティティ解決アルゴリズムによってクラスタにマージされる。
クラスタ化手順は、さらなるマージが不可能になるまで、他の機能で繰り返される。
228kの著者名インスタンスのうち26,566インスタンスでテストされたこの反復クラスタリングは、ペアワイズf1 = 0.99の正確なラベル付きデータを生成する。
ラベル付きデータは、名前の民族性およびグループサイズ分布の曖昧さの観点から、人口データを表現した。
さらにラベル付きデータに基づいてトレーニングされた機械学習アルゴリズムは、ペアワイズF1 = 0.90 ~ 0.92のパフォーマンスでテストデータ中の24K名を曖昧にしている。
本手法を大規模学術データにおける著者名曖昧性解消に適用する上で,いくつかの課題について考察した。
関連論文リスト
- Exploiting Conjugate Label Information for Multi-Instance Partial-Label Learning [61.00359941983515]
MIPL(Multi-instance partial-label Learning)は、各トレーニングサンプルが1つの真のラベルといくつかの偽陽性を含む候補ラベルセットに関連付けられたマルチインスタンスバッグとして表現されるシナリオに対処する。
ELIMIPLは共役ラベル情報を利用して曖昧性を改善する。
論文 参考訳(メタデータ) (2024-08-26T15:49:31Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - CiPR: An Efficient Framework with Cross-instance Positive Relations for Generalized Category Discovery [21.380021266251426]
一般化圏発見(GCD)は、部分的にラベル付けされたデータセットを自動的にクラスタリングするオープンワールドの問題を考える。
本稿では,非競合データに対する未知のカテゴリ数を用いて,GCD問題に対処する。
我々はCiPRというフレームワークを提案し、クロスインスタンスポジティヴリレーションを利用して表現をブートストラップする。
論文 参考訳(メタデータ) (2023-04-14T05:25:52Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Author Name Disambiguation via Heterogeneous Network Embedding from
Structural and Semantic Perspectives [13.266320447769564]
名前の曖昧さは、複数の著者が同じ名前を持つなど、学術的なデジタル図書館で一般的である。
提案手法は主に異種ネットワークとクラスタリングのための表現学習に基づいている。
意味表現はNLPツールを使用して生成される。
論文 参考訳(メタデータ) (2022-12-24T11:22:34Z) - Multi-Instance Partial-Label Learning: Towards Exploiting Dual Inexact
Supervision [53.530957567507365]
実世界のタスクでは、各トレーニングサンプルは、1つの基底真実ラベルといくつかの偽陽性ラベルを含む候補ラベルセットに関連付けられている。
本稿では,Multi-instance partial-label learning (MIPL) などの問題を定式化する。
既存のマルチインスタンス学習アルゴリズムと部分ラベル学習アルゴリズムはMIPL問題の解法に最適である。
論文 参考訳(メタデータ) (2022-12-18T03:28:51Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Group-aware Label Transfer for Domain Adaptive Person Re-identification [179.816105255584]
Unsupervised Adaptive Domain (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインデータセットで訓練されたモデルを、さらなるアノテーションなしでターゲットドメインデータセットに適応することを目的としている。
最も成功したUDA-ReIDアプローチは、クラスタリングに基づく擬似ラベル予測と表現学習を組み合わせて、2つのステップを交互に実行する。
疑似ラベル予測と表現学習のオンラインインタラクションと相互促進を可能にするグループ認識ラベル転送(GLT)アルゴリズムを提案します。
論文 参考訳(メタデータ) (2021-03-23T07:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。