論文の概要: A dataset of mentorship in science with semantic and demographic
estimations
- arxiv url: http://arxiv.org/abs/2106.06487v1
- Date: Fri, 11 Jun 2021 16:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-26 23:32:05.148988
- Title: A dataset of mentorship in science with semantic and demographic
estimations
- Title(参考訳): 意味的・集団的推定を用いた科学におけるメンターシップのデータセット
- Authors: Qing Ke, Lizhen Liang, Ying Ding, Stephen V. David, Daniel E. Acuna
- Abstract要約: 112分野にわたる738989科学者間の743176のメンターシップ関係のクラウドソーシングデータセットについて述べる。
我々は、Microsoft Academic Graphの出版データとディープラーニングコンテンツ分析を用いた研究の「セマンティック」表現で科学者のプロファイルを豊かにする。
我々は、プロファイル-パブリケーションマッチング、セマンティックコンテンツ、人口統計学的推測の広範な検証を行う。
- 参考スコア(独自算出の注目度): 4.317131795436002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mentorship in science is crucial for topic choice, career decisions, and the
success of mentees and mentors. Typically, researchers who study mentorship use
article co-authorship and doctoral dissertation datasets. However, available
datasets of this type focus on narrow selections of fields and miss out on
early career and non-publication-related interactions. Here, we describe
MENTORSHIP, a crowdsourced dataset of 743176 mentorship relationships among
738989 scientists across 112 fields that avoids these shortcomings. We enrich
the scientists' profiles with publication data from the Microsoft Academic
Graph and "semantic" representations of research using deep learning content
analysis. Because gender and race have become critical dimensions when
analyzing mentorship and disparities in science, we also provide estimations of
these factors. We perform extensive validations of the profile--publication
matching, semantic content, and demographic inferences. We anticipate this
dataset will spur the study of mentorship in science and deepen our
understanding of its role in scientists' career outcomes.
- Abstract(参考訳): 科学におけるメンターシップは、トピックの選択、キャリアの決定、メンテやメンテの成功に不可欠である。
通常、メンターシップを研究する研究者は論文の共著者と博士論文データセットを使用する。
しかし、このタイプのデータセットは、フィールドの狭い選択に焦点を当てており、初期のキャリアと非パブリケーション関連の相互作用を見逃している。
ここでは112の分野にわたる738989の科学者間の743176のメンターシップ関係をクラウドソーシングしたデータセットであるMENTORSHIPについて述べる。
我々は、Microsoft Academic Graphの出版データとディープラーニングコンテンツ分析を用いた研究の「セマンティック」表現で科学者のプロファイルを豊かにする。
科学におけるメンターシップと格差を分析する際に、ジェンダーと人種が重要な次元になっているため、これらの要因を推定する。
我々は、プロファイル-パブリケーションマッチング、セマンティックコンテンツ、人口統計推論の広範囲な検証を行う。
我々は、このデータセットが科学におけるメンターシップの研究を刺激し、科学者のキャリア成果におけるその役割の理解を深めることを期待している。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - A Diachronic Analysis of Paradigm Shifts in NLP Research: When, How, and
Why? [84.46288849132634]
本稿では、因果発見と推論技術を用いて、科学分野における研究トピックの進化を分析するための体系的な枠組みを提案する。
我々は3つの変数を定義し、NLPにおける研究トピックの進化の多様な側面を包含する。
我々は因果探索アルゴリズムを用いてこれらの変数間の因果関係を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T11:08:00Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - How Data Scientists Review the Scholarly Literature [4.406926847270567]
データサイエンティストの文献レビューの実践について検討する。
データサイエンスは、論文の指数的な増加を示す分野である。
これらの科学者が直面する具体的な実践や課題について、事前の研究は行われていない。
論文 参考訳(メタデータ) (2023-01-10T03:53:05Z) - SciTweets -- A Dataset and Annotation Framework for Detecting Scientific
Online Discourse [2.3371548697609303]
科学的な話題、主張、資源は、オンライン談話の一部としてますます議論されている。
これにより、社会的な影響が大きくなり、様々な分野からの科学的オンライン談話への関心が高まった。
専門分野にわたる研究は、現在、科学関連の様々な形態の堅牢な定義の欠如に悩まされている。
論文 参考訳(メタデータ) (2022-06-15T08:14:55Z) - Evaluating the state-of-the-art in mapping research spaces: a Brazilian
case study [0.0]
最近の2つの研究は、科学者の出版記録から研究地図を作成する方法を提案している。
与えられたエンティティが新しいフィールドに入るかどうかを予測するモデルの能力を評価します。
これらのモデルがどのようにブラジルの文脈で科学のダイナミクスを特徴づけることができるかを示すケーススタディを実施します。
論文 参考訳(メタデータ) (2021-04-07T18:14:41Z) - Early Indicators of Scientific Impact: Predicting Citations with
Altmetrics [0.0]
altmetricsを使って、学術的な出版物が得る短期的および長期的な引用を予測する。
我々は,様々な分類モデルと回帰モデルを構築し,それらの性能を評価し,それらのタスクに最適なニューラルネットワークとアンサンブルモデルを見つける。
論文 参考訳(メタデータ) (2020-12-25T16:25:07Z) - A Survey of Embedding Space Alignment Methods for Language and Knowledge
Graphs [77.34726150561087]
単語,文,知識グラフの埋め込みアルゴリズムに関する現在の研究状況について調査する。
本稿では、関連するアライメント手法の分類と、この研究分野で使用されるベンチマークデータセットについて論じる。
論文 参考訳(メタデータ) (2020-10-26T16:08:13Z) - Biases in Data Science Lifecycle [0.0]
本研究の目的は,データ科学者の実践的ガイドラインを提供し,その意識を高めることである。
この研究では、さまざまなバイアス源をレビューし、データサイエンスライフサイクルの異なる段階の下でグループ化しました。
論文 参考訳(メタデータ) (2020-09-10T13:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。