論文の概要: Accuracy Assessment of OpenAlex and Clarivate Scholar ID with an LLM-Assisted Benchmark
- arxiv url: http://arxiv.org/abs/2502.11610v1
- Date: Mon, 17 Feb 2025 09:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:14.094784
- Title: Accuracy Assessment of OpenAlex and Clarivate Scholar ID with an LLM-Assisted Benchmark
- Title(参考訳): LLMを用いたベンチマークによるOpenAlexとClarivate Scholar IDの精度評価
- Authors: Renyu Zhao, Yunxin Chen,
- Abstract要約: Web of Science (WOS) 誌の上位四国誌 (Q1) の著者は、国、規律、および対応する著者論文の数に基づいている。
各グループについて,100人の学者を選抜し,検索強化大言語モデルを用いて各論文に注意深い注記を行った。
これらのアノテーションを用いて、OpenAlexとClarivateで対応するIDを特定し、関連するすべての論文を抽出し、Q1 WOSジャーナルにフィルタリングし、アノテーション付きデータセットと比較して精度とリコールを算出した。
- 参考スコア(独自算出の注目度): 0.2302001830524133
- License:
- Abstract: In quantitative SciSci (science of science) studies, accurately identifying individual scholars is paramount for scientific data analysis. However, the variability in how names are represented-due to commonality, abbreviations, and different spelling conventions-complicates this task. While identifier systems like ORCID are being developed, many scholars remain unregistered, and numerous publications are not included. Scholarly databases such as Clarivate and OpenAlex have introduced their own ID systems as preliminary name disambiguation solutions. This study evaluates the effectiveness of these systems across different groups to determine their suitability for various application scenarios. We sampled authors from the top quartile (Q1) of Web of Science (WOS) journals based on country, discipline, and number of corresponding author papers. For each group, we selected 100 scholars and meticulously annotated all their papers using a Search-enhanced Large Language Model method. Using these annotations, we identified the corresponding IDs in OpenAlex and Clarivate, extracted all associated papers, filtered for Q1 WOS journals, and calculated precision and recall by comparing against the annotated dataset.
- Abstract(参考訳): 定量的SciSci(科学科学)研究において、個々の学者を正確に特定することは、科学データ分析において最重要である。
しかし、共通性、略語、および異なる綴り規則により、名前の表現方法のバリエーションは、このタスクを複雑にしている。
ORCIDのような識別子システムは開発されているが、多くの学者は未登録のままであり、多くの出版物は含まれていない。
ClarivateやOpenAlexといった学術データベースは、事前名称の曖昧化ソリューションとして独自のIDシステムを導入している。
本研究は,異なるグループにまたがるシステムの有効性を評価し,様々なアプリケーションシナリオに対する適合性について検討する。
我々は、国、規律、および対応する著者論文の数に基づいて、Web of Science(WOS)ジャーナルの上位四国語(Q1)の著者をサンプリングした。
各グループについて,100人の学者を選抜し,検索強化大言語モデルを用いて各論文に注意深い注記を行った。
これらのアノテーションを用いて、OpenAlexとClarivateで対応するIDを特定し、関連するすべての論文を抽出し、Q1 WOSジャーナルにフィルタリングし、アノテーション付きデータセットと比較して精度とリコールを算出した。
関連論文リスト
- Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - Personalized Jargon Identification for Enhanced Interdisciplinary
Communication [22.999616448996303]
ジェルゴン同定の現在の方法は、主にコーパスレベルの親しみ度指標を使用する。
11人のコンピュータサイエンス研究者から10万以上の用語の親しみやすさアノテーションのデータセットを収集します。
個人,サブドメイン,ドメイン知識を表す特徴について検討し,個々のジャーゴンの親しみ度を予測する。
論文 参考訳(メタデータ) (2023-11-16T00:51:25Z) - Multi-Label Feature Selection Using Adaptive and Transformed Relevance [0.0]
本稿では,ATRと呼ばれる情報理論に基づく新しい多ラベル特徴選択手法を提案する。
ATRは、個々のラベルと抽象的なラベル空間の識別能力を考慮している。
提案実験は,広範囲な特徴空間とラベル空間を特徴とするベンチマークにおけるATRのスケーラビリティを実証するものである。
論文 参考訳(メタデータ) (2023-09-26T09:01:38Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Author Name Disambiguation via Heterogeneous Network Embedding from
Structural and Semantic Perspectives [13.266320447769564]
名前の曖昧さは、複数の著者が同じ名前を持つなど、学術的なデジタル図書館で一般的である。
提案手法は主に異種ネットワークとクラスタリングのための表現学習に基づいている。
意味表現はNLPツールを使用して生成される。
論文 参考訳(メタデータ) (2022-12-24T11:22:34Z) - Combining keyphrase extraction and lexical diversity to characterize
ideas in publication titles [0.0]
コーパスからより包括的なキーワード集合を生成することを目的として,複数のフレーズ検出モデルを提案する。
いくつかのフレーズ検出モデルの性能を比較し,各モデルのキーフレーズ集合を解析し,各モデルからキーフレーズを組み込んだコーパスの語彙的多様性を計算する。
論文 参考訳(メタデータ) (2022-08-30T04:08:35Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。