論文の概要: SMAuC -- The Scientific Multi-Authorship Corpus
- arxiv url: http://arxiv.org/abs/2211.02477v2
- Date: Wed, 10 May 2023 12:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 17:18:05.325844
- Title: SMAuC -- The Scientific Multi-Authorship Corpus
- Title(参考訳): SMAuC - The Scientific Multi-Authorship Corpus
- Authors: Janek Bevendorff, Philipp Sauer, Lukas Gienapp, Wolfgang Kircheis,
Erik K\"orner, Benno Stein, Martin Potthast
- Abstract要約: 本稿では,SMAuCを紹介する。SMAuCは科学的オーサシップ分析に適した,包括的でメタデータに富んだコーパスである。
SMAuCは500万人以上の著者による様々な分野の300万以上の出版物で構成されており、この目的のために公開されている最大規模のコーパスである。
- 参考スコア(独自算出の注目度): 32.77279821297011
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapidly growing volume of scientific publications offers an interesting
challenge for research on methods for analyzing the authorship of documents
with one or more authors. However, most existing datasets lack scientific
documents or the necessary metadata for constructing new experiments and test
cases. We introduce SMAuC, a comprehensive, metadata-rich corpus tailored to
scientific authorship analysis. Comprising over 3 million publications across
various disciplines from over 5 million authors, SMAuC is the largest openly
accessible corpus for this purpose. It encompasses scientific texts from
humanities and natural sciences, accompanied by extensive, curated metadata,
including unambiguous author IDs. SMAuC aims to significantly advance the
domain of authorship analysis in scientific texts.
- Abstract(参考訳): 科学出版物の急増は、文書の著者を1人以上の著者と分析する方法の研究に興味深い課題をもたらす。
しかし、既存のデータセットのほとんどは、新しい実験やテストケースを構築するために必要な科学的文書やメタデータを欠いている。
我々はSMAuCを紹介した。SMAuCは科学的オーサシップ分析に適した包括的でメタデータに富んだコーパスである。
SMAuCは500万人以上の著者による様々な分野の300万以上の出版物で構成されており、この目的のために公開されている最大のコーパスである。
人文科学や自然科学の科学的なテキストを包含し、不明瞭な著者idを含む広範囲に収集されたメタデータを伴っている。
smaucは科学文献における著者分析の分野を飛躍的に発展させることを目指している。
関連論文リスト
- The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - KnowledgeShovel: An AI-in-the-Loop Document Annotation System for
Scientific Knowledge Base Construction [46.56643271476249]
KnowledgeShovelは、研究者が科学的知識基盤を構築するための、Al-in-the-Loop文書アノテーションシステムである。
KnowledgeShovelの設計では、多段階のマルチモーダルAIコラボレーションパイプラインを導入し、データの正確性を向上し、人的負担を軽減する。
7つの地学研究者によるフォローアップユーザ評価では、知識ショベルは、十分な精度で科学的知識ベースを効率的に構築できることを示している。
論文 参考訳(メタデータ) (2022-10-06T11:38:18Z) - Artificial Intelligence in Concrete Materials: A Scientometric View [77.34726150561087]
本章は, コンクリート材料用AI研究の主目的と知識構造を明らかにすることを目的としている。
まず、1990年から2020年にかけて発行された389の雑誌記事が、ウェブ・オブ・サイエンスから検索された。
キーワード共起分析やドキュメント共起分析などのサイエントメトリックツールを用いて,研究分野の特徴と特徴を定量化した。
論文 参考訳(メタデータ) (2022-09-17T18:24:56Z) - Overview of STEM Science as Process, Method, Material, and Data Named
Entities [0.0]
本研究では,10分野にわたるSTEM記事の大規模構造化データセットの開発と分析を行う。
分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。
本研究で作成したSTEM-NER-60kコーパスは,主要出版プラットフォームから得られた60kのSTEM記事から抽出された1M以上のエンティティから構成される。
論文 参考訳(メタデータ) (2022-05-24T07:35:24Z) - Change Summarization of Diachronic Scholarly Paper Collections by
Semantic Evolution Analysis [10.554831859741851]
本研究では,長期間にわたる研究論文の収集を解析するための新しい手法を実証する。
我々のアプローチは、時間とともに単語の意味表現を比較することに基づいており、学術出版物の大規模なドメイン中心のアーカイブをより深く理解することを目的としている。
論文 参考訳(メタデータ) (2021-12-07T11:15:19Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - A field guide to cultivating computational biology [1.040598660564506]
バイオメディカルリサーチセンターは、実験や患者からの大規模なデータセットを活用することで、基礎的な発見と治療戦略を強化することができる。
このデータと、それを作成し、分析する新しい技術は、従来の個別の単一分野の研究モデルを超えて、データ駆動の発見の時代を後押ししてきた。
我々は、個々の科学者、機関、雑誌発行者、資金調達機関、教育者に対する解決策を提案する。
論文 参考訳(メタデータ) (2021-04-23T01:24:21Z) - TDMSci: A Specialized Corpus for Scientific Literature Entity Tagging of
Tasks Datasets and Metrics [32.4845534482475]
NLP論文から抽出した2000の文に対して、タスク(T)、データセット(D)、メトリック(M)エンティティのドメインエキスパートアノテーションを含む新しいコーパスを提案する。
簡便なデータ拡張戦略を用いたtdm抽出実験の結果を報告し,aclから約30,000のnlp論文に適用した。
論文 参考訳(メタデータ) (2021-01-25T17:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。