論文の概要: The STEM-ECR Dataset: Grounding Scientific Entity References in STEM
Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources
- arxiv url: http://arxiv.org/abs/2003.01006v4
- Date: Tue, 28 Jul 2020 09:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:12:02.967003
- Title: The STEM-ECR Dataset: Grounding Scientific Entity References in STEM
Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources
- Title(参考訳): STEM-ECRデータセット:STEMScholarly ContentにおけるSTEM-ECRの科学的実体的参照
- Authors: Jennifer D'Souza, Anett Hoppe, Arthur Brack, Mohamad Yaser Jaradeh,
S\"oren Auer, Ralph Ewerth
- Abstract要約: STEM-ECR v1.0データセットは、科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。
主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。
- 参考スコア(独自算出の注目度): 8.54082916181163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the STEM (Science, Technology, Engineering, and Medicine)
Dataset for Scientific Entity Extraction, Classification, and Resolution,
version 1.0 (STEM-ECR v1.0). The STEM-ECR v1.0 dataset has been developed to
provide a benchmark for the evaluation of scientific entity extraction,
classification, and resolution tasks in a domain-independent fashion. It
comprises abstracts in 10 STEM disciplines that were found to be the most
prolific ones on a major publishing platform. We describe the creation of such
a multidisciplinary corpus and highlight the obtained findings in terms of the
following features: 1) a generic conceptual formalism for scientific entities
in a multidisciplinary scientific context; 2) the feasibility of the
domain-independent human annotation of scientific entities under such a generic
formalism; 3) a performance benchmark obtainable for automatic extraction of
multidisciplinary scientific entities using BERT-based neural models; 4) a
delineated 3-step entity resolution procedure for human annotation of the
scientific entities via encyclopedic entity linking and lexicographic word
sense disambiguation; and 5) human evaluations of Babelfy returned encyclopedic
links and lexicographic senses for our entities. Our findings cumulatively
indicate that human annotation and automatic learning of multidisciplinary
scientific concepts as well as their semantic disambiguation in a wide-ranging
setting as STEM is reasonable.
- Abstract(参考訳): 本稿では,STEM (Science, Technology, Engineering, and Medicine) Dataset for Scientific Entity extract, Classification, and Resolution, Version 1.0 (STEM-ECR v1.0)を紹介する。
STEM-ECR v1.0データセットは、ドメインに依存しない方法で科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。
主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。
このような多分野コーパスの作成について述べるとともに,以下の特徴から得られた知見を明らかにする。
1) 多分野の科学的文脈における科学的実体の総合的概念的形式主義
2) 一般形式主義に基づく科学的実体のドメイン非依存的人間的アノテーションの実現可能性
3) bert型ニューラルモデルを用いた多分野科学分野の自動抽出のための性能ベンチマーク
4) 百科事典的実体リンク及び語彙的単語感覚の曖昧化による科学的実体の人為的アノテーションの3段階的解決手続
5)Babelfyのヒト評価は,我々のエンティティに対する百科事典リンクと語彙感覚を返却した。
以上の結果から,多分野の科学的概念に対する人的アノテーションと自動学習が,STEMのように広範に散在する意味的曖昧さが妥当であることが示唆された。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。
LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。
AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文 参考訳(メタデータ) (2024-01-26T05:33:34Z) - ATEM: A Topic Evolution Model for the Detection of Emerging Topics in
Scientific Archives [1.854328133293073]
ATEMは動的トピックモデリングと動的グラフ埋め込み技術に基づいている。
ATEMは、500万以上のコンピュータサイエンス記事のDBLPアーカイブ内で出現する学際的トピックを効率的に検出することができる。
論文 参考訳(メタデータ) (2023-06-04T00:32:45Z) - MIReAD: Simple Method for Learning High-quality Representations from
Scientific Documents [77.34726150561087]
論文の高品質な表現を学習する簡単な方法であるMIREADを提案する。
私たちは、2000以上のジャーナルクラスで50万以上のPubMedとarXivの抽象クラスでMIREADをトレーニングします。
論文 参考訳(メタデータ) (2023-05-07T03:29:55Z) - SciTweets -- A Dataset and Annotation Framework for Detecting Scientific
Online Discourse [2.3371548697609303]
科学的な話題、主張、資源は、オンライン談話の一部としてますます議論されている。
これにより、社会的な影響が大きくなり、様々な分野からの科学的オンライン談話への関心が高まった。
専門分野にわたる研究は、現在、科学関連の様々な形態の堅牢な定義の欠如に悩まされている。
論文 参考訳(メタデータ) (2022-06-15T08:14:55Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - Overview of STEM Science as Process, Method, Material, and Data Named
Entities [0.0]
本研究では,10分野にわたるSTEM記事の大規模構造化データセットの開発と分析を行う。
分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。
本研究で作成したSTEM-NER-60kコーパスは,主要出版プラットフォームから得られた60kのSTEM記事から抽出された1M以上のエンティティから構成される。
論文 参考訳(メタデータ) (2022-05-24T07:35:24Z) - Expressing High-Level Scientific Claims with Formal Semantics [0.8258451067861932]
我々は、すべての分野の科学論文のサンプルから主要な主張を分析する。
それらの意味論は RDF や OWL のような形式論の直接的な応用よりも複雑である。
ここでは、このスーパーパターンの5つのスロットのインスタンス化が、高階論理における厳密に定義されたステートメントにどのように導かれるかを示す。
論文 参考訳(メタデータ) (2021-09-27T09:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。