論文の概要: Whois? Deep Author Name Disambiguation using Bibliographic Data
- arxiv url: http://arxiv.org/abs/2207.04772v1
- Date: Mon, 11 Jul 2022 11:03:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:39:59.251454
- Title: Whois? Deep Author Name Disambiguation using Bibliographic Data
- Title(参考訳): 誰?
文献データを用いたDeep Author Name Disambiguation
- Authors: Zeyd Boukhers and Nagaraj Asundi Bahubali
- Abstract要約: 著者名Ambiguity(ANA)は、デジタル図書館において重要なオープン問題と考えられている。
本稿では,著者名と現実の実体をリンクする著者名曖昧化(AND)アプローチを提案する。
- 参考スコア(独自算出の注目度): 7.081604594416337
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As the number of authors is increasing exponentially over years, the number
of authors sharing the same names is increasing proportionally. This makes it
challenging to assign newly published papers to their adequate authors.
Therefore, Author Name Ambiguity (ANA) is considered a critical open problem in
digital libraries. This paper proposes an Author Name Disambiguation (AND)
approach that links author names to their real-world entities by leveraging
their co-authors and domain of research. To this end, we use a collection from
the DBLP repository that contains more than 5 million bibliographic records
authored by around 2.6 million co-authors. Our approach first groups authors
who share the same last names and same first name initials. The author within
each group is identified by capturing the relation with his/her co-authors and
area of research, which is represented by the titles of the validated
publications of the corresponding author. To this end, we train a neural
network model that learns from the representations of the co-authors and
titles. We validated the effectiveness of our approach by conducting extensive
experiments on a large dataset.
- Abstract(参考訳): 著者数は年々指数関数的に増加しており、同じ名前の著者の数は比例的に増加している。
そのため、新たに出版された論文を適切な著者に割り当てることは困難である。
したがって、著者名Ambiguity(ANA)はデジタル図書館において重要なオープン問題であると考えられている。
本稿では,共著者と研究領域を活用することで,著者名と現実の実体をリンクする著者名曖昧化(AND)アプローチを提案する。
この目的のために、約260万人の共著者によって書かれた500万以上の書誌記録を含むDBLPリポジトリのコレクションを使用します。
我々のアプローチは、同じ名前と同じ名前のイニシャルを共有する著者を最初にグループ化する。
各グループ内の著者は、対応する著者の検証された出版物のタイトルで表される、共同著者および研究領域との関係を捉えて特定される。
この目的のために、共著者とタイトルの表現から学習するニューラルネットワークモデルをトレーニングする。
大規模データセットに対して広範な実験を行い,提案手法の有効性を検証した。
関連論文リスト
- A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Deep Author Name Disambiguation using DBLP Data [7.081604594416337]
著者名Ambiguity(ANA)は、デジタル図書館において重要なオープン問題と考えられている。
本稿では,著者名と現実の実体をリンクする著者名曖昧化(AND)アプローチを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:50:00Z) - Cracking Double-Blind Review: Authorship Attribution with Deep Learning [43.483063713471935]
本稿では、匿名の原稿を著者に属性付けるトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。
我々は、arXivで公開されているすべての研究論文を200万冊以上の原稿に活用する。
本手法は, 論文の最大73%を正解する, 前代未聞の著者帰属精度を実現する。
論文 参考訳(メタデータ) (2022-11-14T15:50:24Z) - A Bayesian Learning, Greedy agglomerative clustering approach and
evaluation techniques for Author Name Disambiguation Problem [0.0]
著者名はしばしば、同じ作者が異なる名前で登場することや、類似した名前を持つ複数の著者によって曖昧さに悩まされる。
私は著者名を曖昧にすることを目的とした研究努力に重点を置いています。
論文 参考訳(メタデータ) (2022-11-01T08:22:53Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - The Fellowship of the Authors: Disambiguating Names from Social Network
Context [2.3605348648054454]
各エンティティに関する広範なテキスト記述を持つオーソリティリストは、欠落しており、曖昧な名前のエンティティである。
BERTをベースとした参照表現と,さまざまなグラフ誘導戦略を組み合わせて,教師付きクラスタ推論手法と教師なしクラスタ推論手法を実験する。
ドメイン内言語モデルの事前学習は,特により大きなコーパスに対して,参照表現を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2022-08-31T21:51:55Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Bib2Auth: Deep Learning Approach for Author Disambiguation using
Bibliographic Data [4.817368273632451]
著者名と現実の実体をリンクする新しい手法を,共著者パターンと研究領域に頼って提案する。
教師付きディープラーニングモデルでは,著者と共著者との関係や研究領域を把握し,著者を識別する。
Bib2Authは比較的大きなデータセットで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2021-07-09T12:25:11Z) - Pairwise Learning for Name Disambiguation in Large-Scale Heterogeneous
Academic Networks [81.00481125272098]
本稿では,MA-PairRNN(Multi-view Attention-based Pairwise Recurrent Neural Network)を提案する。
MA-PairRNNは、不均一グラフ埋め込み学習とペアワイズ類似学習をフレームワークに統合する。
実世界の2つのデータセットの結果から、我々のフレームワークは名前の曖昧さに対するパフォーマンスを著しく一貫した改善をしていることがわかる。
論文 参考訳(メタデータ) (2020-08-30T06:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。