論文の概要: The STEM-ECR Dataset: Grounding Scientific Entity References in STEM
Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources
- arxiv url: http://arxiv.org/abs/2003.01006v4
- Date: Tue, 28 Jul 2020 09:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 04:12:02.967003
- Title: The STEM-ECR Dataset: Grounding Scientific Entity References in STEM
Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources
- Title(参考訳): STEM-ECRデータセット:STEMScholarly ContentにおけるSTEM-ECRの科学的実体的参照
- Authors: Jennifer D'Souza, Anett Hoppe, Arthur Brack, Mohamad Yaser Jaradeh,
S\"oren Auer, Ralph Ewerth
- Abstract要約: STEM-ECR v1.0データセットは、科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。
主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。
- 参考スコア(独自算出の注目度): 8.54082916181163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the STEM (Science, Technology, Engineering, and Medicine)
Dataset for Scientific Entity Extraction, Classification, and Resolution,
version 1.0 (STEM-ECR v1.0). The STEM-ECR v1.0 dataset has been developed to
provide a benchmark for the evaluation of scientific entity extraction,
classification, and resolution tasks in a domain-independent fashion. It
comprises abstracts in 10 STEM disciplines that were found to be the most
prolific ones on a major publishing platform. We describe the creation of such
a multidisciplinary corpus and highlight the obtained findings in terms of the
following features: 1) a generic conceptual formalism for scientific entities
in a multidisciplinary scientific context; 2) the feasibility of the
domain-independent human annotation of scientific entities under such a generic
formalism; 3) a performance benchmark obtainable for automatic extraction of
multidisciplinary scientific entities using BERT-based neural models; 4) a
delineated 3-step entity resolution procedure for human annotation of the
scientific entities via encyclopedic entity linking and lexicographic word
sense disambiguation; and 5) human evaluations of Babelfy returned encyclopedic
links and lexicographic senses for our entities. Our findings cumulatively
indicate that human annotation and automatic learning of multidisciplinary
scientific concepts as well as their semantic disambiguation in a wide-ranging
setting as STEM is reasonable.
- Abstract(参考訳): 本稿では,STEM (Science, Technology, Engineering, and Medicine) Dataset for Scientific Entity extract, Classification, and Resolution, Version 1.0 (STEM-ECR v1.0)を紹介する。
STEM-ECR v1.0データセットは、ドメインに依存しない方法で科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。
主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。
このような多分野コーパスの作成について述べるとともに,以下の特徴から得られた知見を明らかにする。
1) 多分野の科学的文脈における科学的実体の総合的概念的形式主義
2) 一般形式主義に基づく科学的実体のドメイン非依存的人間的アノテーションの実現可能性
3) bert型ニューラルモデルを用いた多分野科学分野の自動抽出のための性能ベンチマーク
4) 百科事典的実体リンク及び語彙的単語感覚の曖昧化による科学的実体の人為的アノテーションの3段階的解決手続
5)Babelfyのヒト評価は,我々のエンティティに対する百科事典リンクと語彙感覚を返却した。
以上の結果から,多分野の科学的概念に対する人的アノテーションと自動学習が,STEMのように広範に散在する意味的曖昧さが妥当であることが示唆された。
関連論文リスト
- SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [65.47003941584244]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - ATEM: A Topic Evolution Model for the Detection of Emerging Topics in
Scientific Archives [1.854328133293073]
ATEMは動的トピックモデリングと動的グラフ埋め込み技術に基づいている。
ATEMは、500万以上のコンピュータサイエンス記事のDBLPアーカイブ内で出現する学際的トピックを効率的に検出することができる。
論文 参考訳(メタデータ) (2023-06-04T00:32:45Z) - MIReAD: Simple Method for Learning High-quality Representations from
Scientific Documents [77.34726150561087]
論文の高品質な表現を学習する簡単な方法であるMIREADを提案する。
私たちは、2000以上のジャーナルクラスで50万以上のPubMedとarXivの抽象クラスでMIREADをトレーニングします。
論文 参考訳(メタデータ) (2023-05-07T03:29:55Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Detecting Entities in the Astrophysics Literature: A Comparison of
Word-based and Span-based Entity Recognition Methods [20.506920012146235]
本稿では,DeAL(Detecting Entities in the Astrophysics Literature)共有タスクの一部として開発されたエンティティ認識手法について述べる。
本研究の目的は、天体物理学の学術論文からなるデータセットにおいて、名前付きエンティティを識別できるシステムを構築することである。
論文 参考訳(メタデータ) (2022-11-24T23:07:48Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - SciTweets -- A Dataset and Annotation Framework for Detecting Scientific
Online Discourse [2.3371548697609303]
科学的な話題、主張、資源は、オンライン談話の一部としてますます議論されている。
これにより、社会的な影響が大きくなり、様々な分野からの科学的オンライン談話への関心が高まった。
専門分野にわたる研究は、現在、科学関連の様々な形態の堅牢な定義の欠如に悩まされている。
論文 参考訳(メタデータ) (2022-06-15T08:14:55Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - Overview of STEM Science as Process, Method, Material, and Data Named
Entities [0.0]
本研究では,10分野にわたるSTEM記事の大規模構造化データセットの開発と分析を行う。
分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。
本研究で作成したSTEM-NER-60kコーパスは,主要出版プラットフォームから得られた60kのSTEM記事から抽出された1M以上のエンティティから構成される。
論文 参考訳(メタデータ) (2022-05-24T07:35:24Z) - Expressing High-Level Scientific Claims with Formal Semantics [0.8258451067861932]
我々は、すべての分野の科学論文のサンプルから主要な主張を分析する。
それらの意味論は RDF や OWL のような形式論の直接的な応用よりも複雑である。
ここでは、このスーパーパターンの5つのスロットのインスタンス化が、高階論理における厳密に定義されたステートメントにどのように導かれるかを示す。
論文 参考訳(メタデータ) (2021-09-27T09:52:49Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。