論文の概要: Overview of STEM Science as Process, Method, Material, and Data Named
Entities
- arxiv url: http://arxiv.org/abs/2205.11863v1
- Date: Tue, 24 May 2022 07:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 04:21:03.676846
- Title: Overview of STEM Science as Process, Method, Material, and Data Named
Entities
- Title(参考訳): プロセス, 方法, 材料, データ・ネーム・エンティティとしてのstem科学の概観
- Authors: Jennifer D'Souza
- Abstract要約: 本研究では,10分野にわたるSTEM記事の大規模構造化データセットの開発と分析を行う。
分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。
本研究で作成したSTEM-NER-60kコーパスは,主要出版プラットフォームから得られた60kのSTEM記事から抽出された1M以上のエンティティから構成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We are faced with an unprecedented production in scholarly publications
worldwide. Stakeholders in the digital libraries posit that the document-based
publishing paradigm has reached the limits of adequacy. Instead, structured,
machine-interpretable, fine-grained scholarly knowledge publishing as Knowledge
Graphs (KG) is strongly advocated. In this work, we develop and analyze a
large-scale structured dataset of STEM articles across 10 different
disciplines, viz. Agriculture, Astronomy, Biology, Chemistry, Computer Science,
Earth Science, Engineering, Material Science, Mathematics, and Medicine. Our
analysis is defined over a large-scale corpus comprising 60K abstracts
structured as four scientific entities process, method, material, and data.
Thus our study presents, for the first-time, an analysis of a large-scale
multidisciplinary corpus under the construct of four named entity labels that
are specifically defined and selected to be domain-independent as opposed to
domain-specific. The work is then inadvertently a feasibility test of
characterizing multidisciplinary science with domain-independent concepts.
Further, to summarize the distinct facets of scientific knowledge per concept
per discipline, a set of word cloud visualizations are offered. The
STEM-NER-60k corpus, created in this work, comprises over 1M extracted entities
from 60k STEM articles obtained from a major publishing platform and is
publicly released https://github.com/jd-coderepos/stem-ner-60k.
- Abstract(参考訳): 私たちは世界中の学術出版物で前例のない生産に直面している。
デジタル図書館の株主は、文書ベースの出版パラダイムが適切さの限界に達したと仮定している。
代わりに、知識グラフ(kg)としての構造化、機械解釈可能、きめ細かな学術知識出版が強く主張されている。
本研究では,10分野にわたるSTEM論文の大規模構造化データセットであるvizを開発した。
農業、天文学、生物学、化学、計算機科学、地球科学、工学、物質科学、数学、医学。
分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。
そこで本研究では,本研究で初めて,ドメイン固有ではなくドメイン非依存に特別に定義・選択された4つの名前付きエンティティラベルを構成する大規模多分野コーパスの分析を行う。
この研究は、ドメインに依存しない概念で多分野理科を特徴づける実現可能性テストである。
さらに、分野ごとの概念ごとに異なる科学知識の側面を要約するために、一連の単語クラウド可視化を提供する。
本研究で作成されたSTEM-NER-60kコーパスは、主要な出版プラットフォームから取得した60kのSTEM記事から100万以上のエンティティを抽出し、https://github.com/jd-coderepos/stem-ner-60kを公開している。
関連論文リスト
- Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain [0.7947524927438001]
材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-24T07:23:46Z) - ATEM: A Topic Evolution Model for the Detection of Emerging Topics in
Scientific Archives [1.854328133293073]
ATEMは動的トピックモデリングと動的グラフ埋め込み技術に基づいている。
ATEMは、500万以上のコンピュータサイエンス記事のDBLPアーカイブ内で出現する学際的トピックを効率的に検出することができる。
論文 参考訳(メタデータ) (2023-06-04T00:32:45Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - SMAuC -- The Scientific Multi-Authorship Corpus [32.77279821297011]
本稿では,SMAuCを紹介する。SMAuCは科学的オーサシップ分析に適した,包括的でメタデータに富んだコーパスである。
SMAuCは500万人以上の著者による様々な分野の300万以上の出版物で構成されており、この目的のために公開されている最大規模のコーパスである。
論文 参考訳(メタデータ) (2022-11-04T14:07:17Z) - Artificial Intelligence in Concrete Materials: A Scientometric View [77.34726150561087]
本章は, コンクリート材料用AI研究の主目的と知識構造を明らかにすることを目的としている。
まず、1990年から2020年にかけて発行された389の雑誌記事が、ウェブ・オブ・サイエンスから検索された。
キーワード共起分析やドキュメント共起分析などのサイエントメトリックツールを用いて,研究分野の特徴と特徴を定量化した。
論文 参考訳(メタデータ) (2022-09-17T18:24:56Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - Pattern-based Acquisition of Scientific Entities from Scholarly Article
Titles [0.0]
本稿では,学術論文のタイトルから科学的実体を自動的に取得するためのルールベースのアプローチについて述べる。
我々は容易に認識可能なレキシコシンタクティックパターンの集合を同定する。
取得アルゴリズムのサブセットは、計算言語学(CL)学術領域の論文タイトルに対して実装される。
論文 参考訳(メタデータ) (2021-09-01T05:59:06Z) - What's New? Summarizing Contributions in Scientific Literature [85.95906677964815]
本稿では,論文のコントリビューションと作業状況について,個別の要約を生成するために,論文要約のアンタングル化という新たなタスクを導入する。
本稿では,学術論文のS2ORCコーパスを拡張し,コントリビューション・コントリビューション・コントリビューション・レファレンス・ラベルを付加する。
本稿では, 生成した出力の関連性, 新規性, 絡み合いを報告する総合的自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-11-06T02:23:01Z) - Informational Space of Meaning for Scientific Texts [68.8204255655161]
本稿では,単語の意味を,テキストが属する対象カテゴリに関する相対情報ゲイン(RIG)のベクトルで表現する意味空間を紹介する。
Leicester Scientific Corpus (LSC) と Leicester Scientific Dictionary-Core (LScDC) に基づく意味空間の構築に本手法を適用した。
RIGに基づく提案モデルでは,カテゴリ内の話題特化語を際立たせる能力があることが示されている。
論文 参考訳(メタデータ) (2020-04-28T14:26:12Z) - The STEM-ECR Dataset: Grounding Scientific Entity References in STEM
Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources [8.54082916181163]
STEM-ECR v1.0データセットは、科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。
主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。
論文 参考訳(メタデータ) (2020-03-02T16:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。