論文の概要: Overview of STEM Science as Process, Method, Material, and Data Named
Entities
- arxiv url: http://arxiv.org/abs/2205.11863v1
- Date: Tue, 24 May 2022 07:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 04:21:03.676846
- Title: Overview of STEM Science as Process, Method, Material, and Data Named
Entities
- Title(参考訳): プロセス, 方法, 材料, データ・ネーム・エンティティとしてのstem科学の概観
- Authors: Jennifer D'Souza
- Abstract要約: 本研究では,10分野にわたるSTEM記事の大規模構造化データセットの開発と分析を行う。
分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。
本研究で作成したSTEM-NER-60kコーパスは,主要出版プラットフォームから得られた60kのSTEM記事から抽出された1M以上のエンティティから構成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We are faced with an unprecedented production in scholarly publications
worldwide. Stakeholders in the digital libraries posit that the document-based
publishing paradigm has reached the limits of adequacy. Instead, structured,
machine-interpretable, fine-grained scholarly knowledge publishing as Knowledge
Graphs (KG) is strongly advocated. In this work, we develop and analyze a
large-scale structured dataset of STEM articles across 10 different
disciplines, viz. Agriculture, Astronomy, Biology, Chemistry, Computer Science,
Earth Science, Engineering, Material Science, Mathematics, and Medicine. Our
analysis is defined over a large-scale corpus comprising 60K abstracts
structured as four scientific entities process, method, material, and data.
Thus our study presents, for the first-time, an analysis of a large-scale
multidisciplinary corpus under the construct of four named entity labels that
are specifically defined and selected to be domain-independent as opposed to
domain-specific. The work is then inadvertently a feasibility test of
characterizing multidisciplinary science with domain-independent concepts.
Further, to summarize the distinct facets of scientific knowledge per concept
per discipline, a set of word cloud visualizations are offered. The
STEM-NER-60k corpus, created in this work, comprises over 1M extracted entities
from 60k STEM articles obtained from a major publishing platform and is
publicly released https://github.com/jd-coderepos/stem-ner-60k.
- Abstract(参考訳): 私たちは世界中の学術出版物で前例のない生産に直面している。
デジタル図書館の株主は、文書ベースの出版パラダイムが適切さの限界に達したと仮定している。
代わりに、知識グラフ(kg)としての構造化、機械解釈可能、きめ細かな学術知識出版が強く主張されている。
本研究では,10分野にわたるSTEM論文の大規模構造化データセットであるvizを開発した。
農業、天文学、生物学、化学、計算機科学、地球科学、工学、物質科学、数学、医学。
分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。
そこで本研究では,本研究で初めて,ドメイン固有ではなくドメイン非依存に特別に定義・選択された4つの名前付きエンティティラベルを構成する大規模多分野コーパスの分析を行う。
この研究は、ドメインに依存しない概念で多分野理科を特徴づける実現可能性テストである。
さらに、分野ごとの概念ごとに異なる科学知識の側面を要約するために、一連の単語クラウド可視化を提供する。
本研究で作成されたSTEM-NER-60kコーパスは、主要な出版プラットフォームから取得した60kのSTEM記事から100万以上のエンティティを抽出し、https://github.com/jd-coderepos/stem-ner-60kを公開している。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - Ontology Embedding: A Survey of Methods, Applications and Resources [54.3453925775069]
オントロジはドメイン知識とメタデータを表現するために広く使われている。
1つの簡単な解決策は、統計分析と機械学習を統合することである。
埋め込みに関する多くの論文が出版されているが、体系的なレビューの欠如により、研究者はこの分野の包括的な理解を妨げている。
論文 参考訳(メタデータ) (2024-06-16T14:49:19Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Cyber-Security Knowledge Graph Generation by Hierarchical Nonnegative Matrix Factorization [8.158794536515245]
サイバーセキュリティに関する人間の知識の多くは、増え続ける科学論文の中にカプセル化されている。
知識グラフ(KG)は、事実情報を構造化された方法で保存する手段として機能する。
科学文献からKGを構築する際の課題の1つは、構造化されていないテキストからオントロジーを抽出することである。
論文 参考訳(メタデータ) (2024-03-24T16:30:05Z) - Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain [0.7947524927438001]
材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-24T07:23:46Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - SMAuC -- The Scientific Multi-Authorship Corpus [32.77279821297011]
本稿では,SMAuCを紹介する。SMAuCは科学的オーサシップ分析に適した,包括的でメタデータに富んだコーパスである。
SMAuCは500万人以上の著者による様々な分野の300万以上の出版物で構成されており、この目的のために公開されている最大規模のコーパスである。
論文 参考訳(メタデータ) (2022-11-04T14:07:17Z) - The STEM-ECR Dataset: Grounding Scientific Entity References in STEM
Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources [8.54082916181163]
STEM-ECR v1.0データセットは、科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。
主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。
論文 参考訳(メタデータ) (2020-03-02T16:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。