Fugu-MT 論文翻訳(概要): The STEM-ECR Dataset: Grounding Scientific Entity References in STEM Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources

論文の概要: The STEM-ECR Dataset: Grounding Scientific Entity References in STEM Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources

arxiv url: http://arxiv.org/abs/2003.01006v4
Date: Tue, 28 Jul 2020 09:45:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-27 04:12:02.967003
Title: The STEM-ECR Dataset: Grounding Scientific Entity References in STEM Scholarly Content to Authoritative Encyclopedic and Lexicographic Sources
Title（参考訳）: STEM-ECRデータセット:STEMScholarly ContentにおけるSTEM-ECRの科学的実体的参照
Authors: Jennifer D'Souza, Anett Hoppe, Arthur Brack, Mohamad Yaser Jaradeh, S\"oren Auer, Ralph Ewerth
Abstract要約: STEM-ECR v1.0データセットは、科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。
参考スコア（独自算出の注目度）: 8.54082916181163
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the STEM (Science, Technology, Engineering, and Medicine) Dataset for Scientific Entity Extraction, Classification, and Resolution, version 1.0 (STEM-ECR v1.0). The STEM-ECR v1.0 dataset has been developed to provide a benchmark for the evaluation of scientific entity extraction, classification, and resolution tasks in a domain-independent fashion. It comprises abstracts in 10 STEM disciplines that were found to be the most prolific ones on a major publishing platform. We describe the creation of such a multidisciplinary corpus and highlight the obtained findings in terms of the following features: 1) a generic conceptual formalism for scientific entities in a multidisciplinary scientific context; 2) the feasibility of the domain-independent human annotation of scientific entities under such a generic formalism; 3) a performance benchmark obtainable for automatic extraction of multidisciplinary scientific entities using BERT-based neural models; 4) a delineated 3-step entity resolution procedure for human annotation of the scientific entities via encyclopedic entity linking and lexicographic word sense disambiguation; and 5) human evaluations of Babelfy returned encyclopedic links and lexicographic senses for our entities. Our findings cumulatively indicate that human annotation and automatic learning of multidisciplinary scientific concepts as well as their semantic disambiguation in a wide-ranging setting as STEM is reasonable.
Abstract（参考訳）: 本稿では,STEM (Science, Technology, Engineering, and Medicine) Dataset for Scientific Entity extract, Classification, and Resolution, Version 1.0 (STEM-ECR v1.0)を紹介する。 STEM-ECR v1.0データセットは、ドメインに依存しない方法で科学的実体抽出、分類、解決タスクの評価のためのベンチマークを提供するために開発された。主要な出版プラットフォーム上で最も多用されていると判明した10のSTEM分野の抽象化を含んでいる。このような多分野コーパスの作成について述べるとともに,以下の特徴から得られた知見を明らかにする。 1) 多分野の科学的文脈における科学的実体の総合的概念的形式主義 2) 一般形式主義に基づく科学的実体のドメイン非依存的人間的アノテーションの実現可能性 3) bert型ニューラルモデルを用いた多分野科学分野の自動抽出のための性能ベンチマーク 4) 百科事典的実体リンク及び語彙的単語感覚の曖昧化による科学的実体の人為的アノテーションの3段階的解決手続 5)Babelfyのヒト評価は,我々のエンティティに対する百科事典リンクと語彙感覚を返却した。以上の結果から,多分野の科学的概念に対する人的アノテーションと自動学習が,STEMのように広範に散在する意味的曖昧さが妥当であることが示唆された。

関連論文リスト

Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility [57.83550091882176]
生成パラダイム,評価,下流利用における科学的画像合成について検討する。本稿では,情報の有用性と論理的妥当性に基づいて生成した画像を評価するSciGenBenchを紹介する。厳密に検証された合成科学画像上の微調整された大規模マルチモーダルモデルにより、一貫した推論ゲインが得られることを示す。
論文参考訳（メタデータ） (2026-01-17T14:18:36Z)
HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery [50.8841471967624]
HiSciBenchは、完全な科学的ワークフローを反映した5つのレベルにわたる基礎モデルを評価するために設計された階層的なベンチマークである。 HiSciBenchには、6つの主要な科学分野にまたがる8,735件の慎重に管理された事例が含まれている。
論文参考訳（メタデータ） (2025-12-28T12:08:05Z)
SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence [99.30934038146965]
SciEvalKitは、科学知能のコア能力に焦点を当てている。物理学、化学から天文学、材料科学まで6つの主要な科学領域をサポートしている。このツールキットはオープンソースで、コミュニティ主導の開発とAI4Scienceの進歩を促進するために積極的にメンテナンスされている。
論文参考訳（メタデータ） (2025-12-26T17:36:02Z)
SciRAG: Adaptive, Citation-Aware, and Outline-Guided Retrieval and Synthesis for Scientific Literature [52.36039386997026]
我々は科学文献探索のためのオープンソースのフレームワークであるSciRAGを紹介する。 1) 逐次的証拠収集と並列的証拠収集を柔軟に交互に交互に行う適応的検索,(2) 引用グラフを利用して文書を整理・フィルタリングする引用型記号推論,(3) 整合性と透過的帰属性を確保するために回答を計画・批評・洗練するアウトライン誘導合成,である。
論文参考訳（メタデータ） (2025-11-18T11:09:19Z)
A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文参考訳（メタデータ） (2025-08-28T18:30:52Z)
A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora [6.384357773998868]
Sci-OGは研究トピックを生成するための半自動的な方法論である。本稿では,研究トピックを生成するための半自動設計手法であるSci-OGを提案する。提案手法は,21,649件の注釈付きセマンティック・トリプルのデータセットを用いて,様々な代替ソリューションに対して評価する。
論文参考訳（メタデータ） (2025-08-06T08:48:14Z)
Dynamic Knowledge Exchange and Dual-diversity Review: Concisely Unleashing the Potential of a Multi-Agent Research Team [53.38438460574943]
IDVSCIは、大規模言語モデル(LLM)上に構築されたマルチエージェントフレームワークである。動的知識交換機構とデュアルダイバーシティ・レビュー・パラダイムという2つの重要なイノベーションが組み込まれている。結果は、IDVSCIが2つのデータセットで常に最高のパフォーマンスを達成していることを示している。
論文参考訳（メタデータ） (2025-06-23T07:12:08Z)
What's In Your Field? Mapping Scientific Research with Knowledge Graphs and Large Language Models [4.8261605642238745]
大規模言語モデル(LLM)は、大きな仕事の全体にわたる詳細な関係を捉えることができない。構造化された表現は、自然に補完する -- コーパス全体にわたって体系的な分析を可能にする。文献全体に関する正確な質問に答えるシステムを試作する。
論文参考訳（メタデータ） (2025-03-12T23:24:40Z)
MetaScientist: A Human-AI Synergistic Framework for Automated Mechanical Metamaterial Design [39.56799107018762]
我々は、高度なAI機能と専門家の監視を統合した、人間によるループシステムであるMetaScientistを紹介する。各段階において、ドメインの専門家は、システムの出力を反復的に検証し、科学的原則と人間の嗜好との整合性を確保するためにフィードバックと補助材料を提供する。
論文参考訳（メタデータ） (2024-12-20T15:20:57Z)
SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文参考訳（メタデータ） (2024-10-28T15:56:49Z)
SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文参考訳（メタデータ） (2024-06-20T22:03:21Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
Scientific Large Language Models: A Survey on Biological & Chemical Domains [47.97810890521825]
大規模言語モデル(LLM)は、自然言語理解の強化において、変革的な力として現れてきた。 LLMの応用は従来の言語境界を超えて、様々な科学分野で開発された専門的な言語システムを含んでいる。 AI for Science(AI for Science)のコミュニティで急成長している分野として、科学LLMは包括的な探査を義務付けている。
論文参考訳（メタデータ） (2024-01-26T05:33:34Z)
ATEM: A Topic Evolution Model for the Detection of Emerging Topics in Scientific Archives [1.854328133293073]
ATEMは動的トピックモデリングと動的グラフ埋め込み技術に基づいている。 ATEMは、500万以上のコンピュータサイエンス記事のDBLPアーカイブ内で出現する学際的トピックを効率的に検出することができる。
論文参考訳（メタデータ） (2023-06-04T00:32:45Z)
MIReAD: Simple Method for Learning High-quality Representations from Scientific Documents [77.34726150561087]
論文の高品質な表現を学習する簡単な方法であるMIREADを提案する。私たちは、2000以上のジャーナルクラスで50万以上のPubMedとarXivの抽象クラスでMIREADをトレーニングします。
論文参考訳（メタデータ） (2023-05-07T03:29:55Z)
SciTweets -- A Dataset and Annotation Framework for Detecting Scientific Online Discourse [2.3371548697609303]
科学的な話題、主張、資源は、オンライン談話の一部としてますます議論されている。これにより、社会的な影響が大きくなり、様々な分野からの科学的オンライン談話への関心が高まった。専門分野にわたる研究は、現在、科学関連の様々な形態の堅牢な定義の欠如に悩まされている。
論文参考訳（メタデータ） (2022-06-15T08:14:55Z)
An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文参考訳（メタデータ） (2022-05-31T11:19:32Z)
Overview of STEM Science as Process, Method, Material, and Data Named Entities [0.0]
本研究では,10分野にわたるSTEM記事の大規模構造化データセットの開発と分析を行う。分析は,4つの科学的実体プロセス,方法,材料,データとして構造化された60Kの抽象概念からなる大規模コーパス上で定義される。本研究で作成したSTEM-NER-60kコーパスは,主要出版プラットフォームから得られた60kのSTEM記事から抽出された1M以上のエンティティから構成される。
論文参考訳（メタデータ） (2022-05-24T07:35:24Z)
Expressing High-Level Scientific Claims with Formal Semantics [0.8258451067861932]
我々は、すべての分野の科学論文のサンプルから主要な主張を分析する。それらの意味論は RDF や OWL のような形式論の直接的な応用よりも複雑である。ここでは、このスーパーパターンの5つのスロットのインスタンス化が、高階論理における厳密に定義されたステートメントにどのように導かれるかを示す。
論文参考訳（メタデータ） (2021-09-27T09:52:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。