論文の概要: SciEvent: Benchmarking Multi-domain Scientific Event Extraction
- arxiv url: http://arxiv.org/abs/2509.15620v1
- Date: Fri, 19 Sep 2025 05:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.012659
- Title: SciEvent: Benchmarking Multi-domain Scientific Event Extraction
- Title(参考訳): SciEvent: マルチドメイン科学イベント抽出のベンチマーク
- Authors: Bofu Dong, Pritesh Shah, Sumedh Sonawane, Tiyasha Banerjee, Erin Brady, Xinya Du, Ming Jiang,
- Abstract要約: SciEventは、統一イベント抽出(EE)スキーマを通じて注釈付けされた科学的な抽象化の、新しいマルチドメインベンチマークである。
5つの研究ドメインに500の抽象化があり、イベントセグメント、トリガー、きめ細かい引数のマニュアルアノテーションがある。
微調整されたEEモデル、大きな言語モデル(LLM)、人間アノテーションによる実験は、社会学や人文科学といった領域で苦労している現在のモデルと、パフォーマンスのギャップを明らかにしている。
- 参考スコア(独自算出の注目度): 14.37001604445613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific information extraction (SciIE) has primarily relied on entity-relation extraction in narrow domains, limiting its applicability to interdisciplinary research and struggling to capture the necessary context of scientific information, often resulting in fragmented or conflicting statements. In this paper, we introduce SciEvent, a novel multi-domain benchmark of scientific abstracts annotated via a unified event extraction (EE) schema designed to enable structured and context-aware understanding of scientific content. It includes 500 abstracts across five research domains, with manual annotations of event segments, triggers, and fine-grained arguments. We define SciIE as a multi-stage EE pipeline: (1) segmenting abstracts into core scientific activities--Background, Method, Result, and Conclusion; and (2) extracting the corresponding triggers and arguments. Experiments with fine-tuned EE models, large language models (LLMs), and human annotators reveal a performance gap, with current models struggling in domains such as sociology and humanities. SciEvent serves as a challenging benchmark and a step toward generalizable, multi-domain SciIE.
- Abstract(参考訳): 科学情報抽出(SciIE)は主に狭い領域における実体関係抽出に依存しており、学際的な研究に適用可能であり、科学情報の必要なコンテキストを捉えるのに苦労している。
本稿では,SciEventについて紹介する。SciEventは,科学内容の構造的・文脈的理解を可能にする統一イベント抽出(EE)スキーマによって注釈付けされた,科学抽象のマルチドメインベンチマークである。
5つの研究ドメインに500の抽象化があり、イベントセグメント、トリガー、きめ細かい引数のマニュアルアノテーションがある。
我々は,SciIEを多段階のEEパイプラインとして定義する。(1)抽象概念を科学活動の中核に分割する - 背景,方法,結果,結論,そして(2)対応する引き金と引数を抽出する。
微調整されたEEモデル、大きな言語モデル(LLM)、人間アノテーションによる実験は、社会学や人文科学といった領域で苦労している現在のモデルと、パフォーマンスのギャップを明らかにしている。
SciEventは難しいベンチマークとして機能し、一般化可能なマルチドメインSciIEへの一歩となる。
関連論文リスト
- SciGPT: A Large Language Model for Scientific Literature Understanding and Knowledge Discovery [3.779883844533933]
本稿では、科学文献理解のためのドメイン適応モデルSciGPTと、科学的LLMを評価するためのオープンソースベンチマークSciGPTを提案する。
Qwen3アーキテクチャ上に構築されたSciGPTには、パフォーマンスと効率のバランスをとるために、(1)2段階のパイプラインによる低コストなドメイン蒸留、(2)32,000の長期的推論のために、メモリ消費を55%削減するスパース混合処理の注意機構、(3)ドメイン固有のニュアンスを統合する知識認識適応の3つの革新が含まれている。
ScienceBenchの実験結果によると、SciGPTは配列を含む中核的な科学的タスクにおいてGPT-4oを上回っている。
論文 参考訳(メタデータ) (2025-09-09T16:09:19Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [221.34650992288505]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - SciTopic: Enhancing Topic Discovery in Scientific Literature through Advanced LLM [19.949137890090814]
本稿では,大規模言語モデル(LLM)によって強化された高度なトピック発見手法を提案する。
具体的には、メタデータ、タイトル、要約を含む科学出版物からコンテンツをキャプチャするテキストエンコーダを構築する。
次に,LLMによって導かれるエントロピーに基づくサンプリングと三重項タスクを統合した空間最適化モジュールを構築する。
3つの実世界のデータセットで実施された実験は、SciTopicが最先端(SOTA)の科学的トピック発見方法より優れていることを示した。
論文 参考訳(メタデータ) (2025-08-28T07:55:06Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - EXCEEDS: Extracting Complex Events as Connecting the Dots to Graphs in Scientific Domain [57.56639626657212]
我々は、科学領域に適したスキーマを備えた大規模マルチイベント文書レベルデータセットであるSciEventsを構築した。
そこで我々は,グリッドマトリックスに高密度ナゲットを格納することで,新しいエンドツーエンドの科学的イベント抽出フレームワークEXCEEDSを提案する。
実験により,SciEvents上でのEXCEEDSの最先端性能が実証された。
論文 参考訳(メタデータ) (2024-06-20T07:50:37Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SKT5SciSumm -- Revisiting Extractive-Generative Approach for Multi-Document Scientific Summarization [24.051692189473723]
マルチドキュメント科学要約(MDSS)のためのハイブリッドフレームワークSKT5SciSummを提案する。
我々は,Citation-Informed Transformer (SPECTER) を用いたScientific Paper Embeddingsの文変換バージョンを活用し,文のエンコードと表現を行う。
我々は、抽出文を用いて抽象要約を生成するために、T5モデルのファミリを用いる。
論文 参考訳(メタデータ) (2024-02-27T08:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。