Fugu-MT 論文翻訳(概要): Overview of STEM Science as Process, Method, Material, and Data Named Entities

論文の概要: Overview of STEM Science as Process, Method, Material, and Data Named Entities

arxiv url: http://arxiv.org/abs/2205.11863v1
Date: Tue, 24 May 2022 07:35:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-26 04:21:03.676846
Title: Overview of STEM Science as Process, Method, Material, and Data Named Entities
Title（参考訳）: プロセス, 方法, 材料, データ・ネーム・エンティティとしてのstem科学の概観
Authors: Jennifer D'Souza
Abstract要約: 本研究では,10分野にわたるSTEM記事の大規模構造化データセットの開発と分析を行う。分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。本研究で作成したSTEM-NER-60kコーパスは,主要出版プラットフォームから得られた60kのSTEM記事から抽出された1M以上のエンティティから構成される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We are faced with an unprecedented production in scholarly publications worldwide. Stakeholders in the digital libraries posit that the document-based publishing paradigm has reached the limits of adequacy. Instead, structured, machine-interpretable, fine-grained scholarly knowledge publishing as Knowledge Graphs (KG) is strongly advocated. In this work, we develop and analyze a large-scale structured dataset of STEM articles across 10 different disciplines, viz. Agriculture, Astronomy, Biology, Chemistry, Computer Science, Earth Science, Engineering, Material Science, Mathematics, and Medicine. Our analysis is defined over a large-scale corpus comprising 60K abstracts structured as four scientific entities process, method, material, and data. Thus our study presents, for the first-time, an analysis of a large-scale multidisciplinary corpus under the construct of four named entity labels that are specifically defined and selected to be domain-independent as opposed to domain-specific. The work is then inadvertently a feasibility test of characterizing multidisciplinary science with domain-independent concepts. Further, to summarize the distinct facets of scientific knowledge per concept per discipline, a set of word cloud visualizations are offered. The STEM-NER-60k corpus, created in this work, comprises over 1M extracted entities from 60k STEM articles obtained from a major publishing platform and is publicly released https://github.com/jd-coderepos/stem-ner-60k.
Abstract（参考訳）: 私たちは世界中の学術出版物で前例のない生産に直面している。デジタル図書館の株主は、文書ベースの出版パラダイムが適切さの限界に達したと仮定している。代わりに、知識グラフ(kg)としての構造化、機械解釈可能、きめ細かな学術知識出版が強く主張されている。本研究では,10分野にわたるSTEM論文の大規模構造化データセットであるvizを開発した。農業、天文学、生物学、化学、計算機科学、地球科学、工学、物質科学、数学、医学。分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。そこで本研究では,本研究で初めて,ドメイン固有ではなくドメイン非依存に特別に定義・選択された4つの名前付きエンティティラベルを構成する大規模多分野コーパスの分析を行う。この研究は、ドメインに依存しない概念で多分野理科を特徴づける実現可能性テストである。さらに、分野ごとの概念ごとに異なる科学知識の側面を要約するために、一連の単語クラウド可視化を提供する。本研究で作成されたSTEM-NER-60kコーパスは、主要な出版プラットフォームから取得した60kのSTEM記事から100万以上のエンティティを抽出し、https://github.com/jd-coderepos/stem-ner-60kを公開している。

関連論文リスト

A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文参考訳（メタデータ） (2025-08-28T18:30:52Z)
SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models [35.839640555805374]
SciCUEvalは、大規模言語モデル(LLM)の科学的文脈理解能力を評価するためのベンチマークデータセットである。生物学、化学、物理学、生物医学、材料科学にまたがる10のドメイン固有のサブデータセットで構成され、構造化テーブル、知識グラフ、構造化されていないテキストを含む多様なデータモダリティを統合する。関連情報識別、情報理解検出、マルチソース情報統合、コンテキスト認識推論の4つのコア能力を、様々な質問形式を通じて体系的に評価する。
論文参考訳（メタデータ） (2025-05-21T04:33:26Z)
What's In Your Field? Mapping Scientific Research with Knowledge Graphs and Large Language Models [4.8261605642238745]
大規模言語モデル(LLM)は、大きな仕事の全体にわたる詳細な関係を捉えることができない。構造化された表現は、自然に補完する -- コーパス全体にわたって体系的な分析を可能にする。文献全体に関する正確な質問に答えるシステムを試作する。
論文参考訳（メタデータ） (2025-03-12T23:24:40Z)
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature [73.39593644054865]
BIOMEDICAはスケーラブルでオープンソースのフレームワークで、PubMed Central Open Accessサブセット全体を抽出、注釈付け、シリアライズして、使いやすく、公開可能なデータセットにする。われわれのフレームワークは600万以上の記事から2400万以上のユニークな画像テキストペアで包括的なアーカイブを生成する。 BMCA-CLIPは、ストリーミングを通じてBIOMEDICAデータセット上で継続的に事前トレーニングされたCLIPスタイルのモデルのスイートで、27TBのデータをローカルにダウンロードする必要がなくなる。
論文参考訳（メタデータ） (2025-01-13T09:58:03Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文参考訳（メタデータ） (2024-06-20T22:03:21Z)
Ontology Embedding: A Survey of Methods, Applications and Resources [54.3453925775069]
オントロジはドメイン知識とメタデータを表現するために広く使われている。 1つの簡単な解決策は、統計分析と機械学習を統合することである。埋め込みに関する多くの論文が出版されているが、体系的なレビューの欠如により、研究者はこの分野の包括的な理解を妨げている。
論文参考訳（メタデータ） (2024-06-16T14:49:19Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
Cyber-Security Knowledge Graph Generation by Hierarchical Nonnegative Matrix Factorization [8.158794536515245]
サイバーセキュリティに関する人間の知識の多くは、増え続ける科学論文の中にカプセル化されている。知識グラフ(KG)は、事実情報を構造化された方法で保存する手段として機能する。科学文献からKGを構築する際の課題の1つは、構造化されていないテキストからオントロジーを抽出することである。
論文参考訳（メタデータ） (2024-03-24T16:30:05Z)
Bridging Research and Readers: A Multi-Modal Automated Academic Papers Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文参考訳（メタデータ） (2024-01-17T11:50:53Z)
MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in the Materials Science Domain [0.7947524927438001]
材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
論文参考訳（メタデータ） (2023-10-24T07:23:46Z)
The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文参考訳（メタデータ） (2023-01-24T17:13:08Z)
SMAuC -- The Scientific Multi-Authorship Corpus [32.77279821297011]
本稿では,SMAuCを紹介する。SMAuCは科学的オーサシップ分析に適した,包括的でメタデータに富んだコーパスである。 SMAuCは500万人以上の著者による様々な分野の300万以上の出版物で構成されており、この目的のために公開されている最大規模のコーパスである。
論文参考訳（メタデータ） (2022-11-04T14:07:17Z)
The STEM-ECR Dataset: Grounding Scientific Entity References in STEM Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources [8.54082916181163]
STEM-ECR v1.0データセットは、科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。
論文参考訳（メタデータ） (2020-03-02T16:35:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。