論文の概要: S2AMP: A High-Coverage Dataset of Scholarly Mentorship Inferred from
Publications
- arxiv url: http://arxiv.org/abs/2204.10838v3
- Date: Fri, 29 Apr 2022 20:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 16:25:12.223555
- Title: S2AMP: A High-Coverage Dataset of Scholarly Mentorship Inferred from
Publications
- Title(参考訳): s2amp:出版物から推測される学術的メンターシップの高カバレッジデータセット
- Authors: Shaurya Rohatgi, Doug Downey, Daniel King and Sergey Feldman
- Abstract要約: メンターシップ研究に2つのデータセットを貢献する。
1人目は30万人以上の真理学のメンターとメンターのペアを持つ。
2番目は2400万ノードのうち、1億3700万の重み付けされたメンターシップエッジを持つ。
- 参考スコア(独自算出の注目度): 15.505003540774625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mentorship is a critical component of academia, but is not as visible as
publications, citations, grants, and awards. Despite the importance of studying
the quality and impact of mentorship, there are few large representative
mentorship datasets available. We contribute two datasets to the study of
mentorship. The first has over 300,000 ground truth academic mentor-mentee
pairs obtained from multiple diverse, manually-curated sources, and linked to
the Semantic Scholar (S2) knowledge graph. We use this dataset to train an
accurate classifier for predicting mentorship relations from bibliographic
features, achieving a held-out area under the ROC curve of 0.96. Our second
dataset is formed by applying the classifier to the complete co-authorship
graph of S2. The result is an inferred graph with 137 million weighted
mentorship edges among 24 million nodes. We release this first-of-its-kind
dataset to the community to help accelerate the study of scholarly mentorship:
\url{https://github.com/allenai/S2AMP-data}
- Abstract(参考訳): メンターシップは学術の重要な要素であるが、出版物、引用物、賞、賞ほど目に見えるものではない。
メンターシップの品質と影響を研究することの重要性にもかかわらず、大規模なメンターシップデータセットはほとんどない。
メンターシップ研究に2つのデータセットを貢献する。
1つ目は、複数の多様で手動で収集された情報源から得られた30万以上の基礎真理の学術的メンターとメンターのペアであり、semantic scholar (s2) ナレッジグラフにリンクされている。
このデータセットを用いて,書誌的特徴からメンターシップ関係を予測するための正確な分類器を訓練し,roc曲線0.96で保持領域を達成した。
第2のデータセットは、s2の完全な共著者グラフに分類器を適用することによって形成される。
その結果、推定されたグラフは、2400万のノードで1億3700万の重み付きメンターシップエッジを持つ。
私たちは、学術的なメンターシップの研究を加速するために、この最初のデータデータセットをコミュニティにリリースします。
関連論文リスト
- Enriched BERT Embeddings for Scholarly Publication Classification [0.13654846342364302]
NSLP 2024 FoRC Task Iは、競争として組織されたこの課題に対処する。
目的は、ある論文に対する研究分野の分類法であるOpen Research Knowledge Graph (ORKG) から、123の事前定義されたクラスのうちの1つを予測することができる分類器を開発することである。
論文 参考訳(メタデータ) (2024-05-07T09:05:20Z) - Replication: Contrastive Learning and Data Augmentation in Traffic
Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文 参考訳(メタデータ) (2023-09-18T12:55:09Z) - You Only Transfer What You Share: Intersection-Induced Graph Transfer
Learning for Link Prediction [79.15394378571132]
従来見過ごされていた現象を調査し、多くの場合、元のグラフに対して密に連結された補グラフを見つけることができる。
より密度の高いグラフは、選択的で有意義な知識を伝達するための自然なブリッジを提供する元のグラフとノードを共有することができる。
この設定をグラフインターセクション誘導トランスファーラーニング(GITL)とみなし,eコマースや学術共同オーサシップ予測の実践的応用に動機づけられた。
論文 参考訳(メタデータ) (2023-02-27T22:56:06Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - GraphLearner: Graph Node Clustering with Fully Learnable Augmentation [76.63963385662426]
Contrastive Deep Graph Clustering (CDGC)は、異なるクラスタにノードをグループ化するために、コントラスト学習のパワーを活用する。
我々は、GraphLearnerと呼ばれる、完全学習可能な拡張を備えたグラフノードクラスタリングを提案する。
学習可能な拡張器を導入し、CDGCのための高品質でタスク固有の拡張サンプルを生成する。
論文 参考訳(メタデータ) (2022-12-07T10:19:39Z) - Cracking Double-Blind Review: Authorship Attribution with Deep Learning [43.483063713471935]
本稿では、匿名の原稿を著者に属性付けるトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。
我々は、arXivで公開されているすべての研究論文を200万冊以上の原稿に活用する。
本手法は, 論文の最大73%を正解する, 前代未聞の著者帰属精度を実現する。
論文 参考訳(メタデータ) (2022-11-14T15:50:24Z) - A Knowledge Graph Embeddings based Approach for Author Name
Disambiguation using Literals [3.025718443055402]
Literally Author Name Disambiguation (LAND)は、Scholarly KGsから生成されたマルチモーダルリテラル情報を用いて知識グラフ埋め込み(KGE)を利用する。
このフレームワークは, 1) マルチモーダルKGE, 2) ブロッキング手順, 3) 階層的クラスタリングという3つのコンポーネントに基づいている。
論文 参考訳(メタデータ) (2022-01-24T09:57:24Z) - PEEK: A Large Dataset of Learner Engagement with Educational Videos [20.49299110732228]
我々は,教育ビデオに携わる学習者の大規模な新しいデータセットをリリースする。
このデータセットはPEEK(Personalized Educational Engagement with Knowledge Topics)と名付けられたもので、この性質について初めて公開されたデータセットである。
学習者のエンゲージメントの信号は、リッチなコンテンツ表現と一致して、強力なパーソナライズアルゴリズムを構築するための道を開くだろうと考えています。
論文 参考訳(メタデータ) (2021-09-03T11:23:02Z) - Dual-Teacher: Integrating Intra-domain and Inter-domain Teachers for
Annotation-efficient Cardiac Segmentation [65.81546955181781]
本稿では,新しい半教師付きドメイン適応手法,すなわちDual-Teacherを提案する。
学生モデルは、2つの教師モデルによってラベル付けされていない対象データとラベル付けされた情報源データの知識を学習する。
提案手法では, ラベルなしデータとモダリティ間データとを並列に利用でき, 性能が向上することを示した。
論文 参考訳(メタデータ) (2020-07-13T10:00:44Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。