論文の概要: SciNLP: A Domain-Specific Benchmark for Full-Text Scientific Entity and Relation Extraction in NLP
- arxiv url: http://arxiv.org/abs/2509.07801v1
- Date: Tue, 09 Sep 2025 14:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.359221
- Title: SciNLP: A Domain-Specific Benchmark for Full-Text Scientific Entity and Relation Extraction in NLP
- Title(参考訳): SciNLP: NLPにおける全文科学的エンティティと関係抽出のためのドメイン特化ベンチマーク
- Authors: Decheng Duan, Yingyi Zhang, Jitong Peng, Chengzhi Zhang,
- Abstract要約: SciNLPは、自然言語処理(NLP)ドメインにおけるフルテキストエンティティと関係抽出のためのベンチマークである。
データセットは、手動で注釈付きフルテキストNLP出版物60からなり、7,072のエンティティと1,826の関係をカバーしている。
- 参考スコア(独自算出の注目度): 3.806421007129287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Structured information extraction from scientific literature is crucial for capturing core concepts and emerging trends in specialized fields. While existing datasets aid model development, most focus on specific publication sections due to domain complexity and the high cost of annotating scientific texts. To address this limitation, we introduce SciNLP - a specialized benchmark for full-text entity and relation extraction in the Natural Language Processing (NLP) domain. The dataset comprises 60 manually annotated full-text NLP publications, covering 7,072 entities and 1,826 relations. Compared to existing research, SciNLP is the first dataset providing full-text annotations of entities and their relationships in the NLP domain. To validate the effectiveness of SciNLP, we conducted comparative experiments with similar datasets and evaluated the performance of state-of-the-art supervised models on this dataset. Results reveal varying extraction capabilities of existing models across academic texts of different lengths. Cross-comparisons with existing datasets show that SciNLP achieves significant performance improvements on certain baseline models. Using models trained on SciNLP, we implemented automatic construction of a fine-grained knowledge graph for the NLP domain. Our KG has an average node degree of 3.2 per entity, indicating rich semantic topological information that enhances downstream applications. The dataset is publicly available at https://github.com/AKADDC/SciNLP.
- Abstract(参考訳): 科学文献からの構造化情報抽出は、専門分野における中核概念と新たなトレンドを捉える上で重要である。
既存のデータセットはモデル開発に役立つが、ほとんどの場合、ドメインの複雑さとアノテートする科学的テキストのコストが高いため、特定の出版セクションに焦点を当てている。
この制限に対処するために、自然言語処理(NLP)ドメインにおいて、フルテキストエンティティと関係抽出のための特別なベンチマークであるSciNLPを紹介する。
データセットは、手動で注釈付きフルテキストNLP出版物60からなり、7,072のエンティティと1,826の関係をカバーしている。
既存の研究と比較すると、SciNLPはNLPドメインにおけるエンティティとそれらの関係のフルテキストアノテーションを提供する最初のデータセットである。
SciNLPの有効性を検証するために、類似したデータセットを用いて比較実験を行い、このデータセット上での最先端の教師付きモデルの性能を評価した。
その結果,異なる長さの学術論文にまたがる既存モデルの抽出能力の差異が明らかになった。
既存のデータセットと比較すると、SciNLPは特定のベースラインモデルで大幅なパフォーマンス向上を実現している。
SciNLPで訓練されたモデルを用いて,NLPドメインのためのきめ細かい知識グラフの自動構築を行った。
我々のKGは平均ノード次数3.2であり、下流アプリケーションを強化するリッチな意味的トポロジ情報を示している。
データセットはhttps://github.com/AKADDC/SciNLPで公開されている。
関連論文リスト
- Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - Integrating curation into scientific publishing to train AI models [1.6982459897303823]
我々は,複数モーダルデータキュレーションを学術出版プロセスに組み込んで,セグメント化された図形パネルやキャプションに注釈を付ける。
SourceData-NLPというデータセットには、620,000以上の注釈付きバイオメディカルエンティティが含まれている。
我々は、名前付き認識、図形キャプションを構成パネルに分割すること、コンテキスト依存型セマンティックタスクを用いて、AIモデルをトレーニングするためのデータセットの有用性を評価する。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Surveying the Landscape of Text Summarization with Deep Learning: A
Comprehensive Review [2.4185510826808487]
ディープラーニングは、言語データの複雑な表現を学習できるモデルの開発を可能にすることによって、自然言語処理(NLP)に革命をもたらした。
NLPのディープラーニングモデルは、通常、大量のデータを使用してディープニューラルネットワークをトレーニングし、言語データ内のパターンと関係を学習する。
テキスト要約にディープラーニングを適用することは、テキスト要約タスクを実行するためにディープニューラルネットワークを使用することを指す。
論文 参考訳(メタデータ) (2023-10-13T21:24:37Z) - WANLI: Worker and AI Collaboration for Natural Language Inference
Dataset Creation [101.00109827301235]
我々は人間と機械の協調に基づくデータセット作成のための新しいパラダイムを導入する。
我々は、データセット地図を用いて、挑戦的な推論パターンを示すサンプルを自動的に識別し、GPT-3に同様のパターンで新しい例を作成するよう指示する。
結果として得られたデータセットであるWANLIは、108,357の自然言語推論(NLI)の例からなり、ユニークな経験的強度を示す。
論文 参考訳(メタデータ) (2022-01-16T03:13:49Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。