論文の概要: A MISMATCHED Benchmark for Scientific Natural Language Inference
- arxiv url: http://arxiv.org/abs/2506.04603v1
- Date: Thu, 05 Jun 2025 03:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.51437
- Title: A MISMATCHED Benchmark for Scientific Natural Language Inference
- Title(参考訳): 科学自然言語推論のためのMISMATCHEDベンチマーク
- Authors: Firoz Shaik, Mobashir Sadat, Nikita Gautam, Doina Caragea, Cornelia Caragea,
- Abstract要約: 我々はMISMATCHEDと呼ばれる科学NLIの新たな評価ベンチマークを導入する。
新しいベンチマークでは、PSYCHOLOGY、ENGINEERING、PUBLIC HEALTHの3つの非CSドメインをカバーする。
MISMATCHEDベンチマークを導入することに加え、モデルトレーニングにおいてそれらの間の暗黙的な科学的NLI関係を持つ文対を組み込むことで、科学的NLIの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 53.17435107472026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific Natural Language Inference (NLI) is the task of predicting the semantic relation between a pair of sentences extracted from research articles. Existing datasets for this task are derived from various computer science (CS) domains, whereas non-CS domains are completely ignored. In this paper, we introduce a novel evaluation benchmark for scientific NLI, called MISMATCHED. The new MISMATCHED benchmark covers three non-CS domains-PSYCHOLOGY, ENGINEERING, and PUBLIC HEALTH, and contains 2,700 human annotated sentence pairs. We establish strong baselines on MISMATCHED using both Pre-trained Small Language Models (SLMs) and Large Language Models (LLMs). Our best performing baseline shows a Macro F1 of only 78.17% illustrating the substantial headroom for future improvements. In addition to introducing the MISMATCHED benchmark, we show that incorporating sentence pairs having an implicit scientific NLI relation between them in model training improves their performance on scientific NLI. We make our dataset and code publicly available on GitHub.
- Abstract(参考訳): 科学自然言語推論(Scientific Natural Language Inference, NLI)は、研究論文から抽出された文のペア間の意味的関係を予測するタスクである。
既存のデータセットは様々なコンピュータサイエンス(CS)ドメインから派生しているが、非CSドメインは完全に無視されている。
本稿では,MISMATCHEDと呼ばれる科学NLIのための新しい評価ベンチマークを提案する。
新しいMISMATCHEDベンチマークは、3つの非CSドメイン(PSYCHOLOGY、ENGINEERING、PUBLIC HEALTH)をカバーし、2,700人の注釈付き文対を含んでいる。
我々は,SLM(Small Language Models)とLLM(Large Language Models)を併用したMISMATCHEDの強力なベースラインを確立する。
私たちの最高のパフォーマンスベースラインは、将来の改善のための実質的なヘッドルームを示すわずか78.17%のマクロF1を示している。
MISMATCHEDベンチマークを導入することに加え、モデルトレーニングにおいてそれらの間の暗黙的な科学的NLI関係を持つ文対を組み込むことで、科学的NLIの性能が向上することを示す。
データセットとコードはGitHubで公開しています。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference [65.37685198688538]
本稿では,5つの科学領域から抽出した132,320の文対を含むデータセットであるMSciNLIについて述べる。
我々は、微調整事前学習言語モデル(PLM)とLarge Language Model(LLM)によるMSciNLIの強力なベースラインを確立する。
ドメインシフトは、データセット内の異なるドメインの多様な特性を示す科学的なNLIモデルの性能を低下させることを示す。
論文 参考訳(メタデータ) (2024-04-11T18:12:12Z) - SciNLI: A Corpus for Natural Language Inference on Scientific Text [47.293189105900524]
我々は,NLIのための大規模データセットであるSciNLIを紹介した。
XLNetで最高のパフォーマンスモデルでは、マクロF1スコアは78.18%、精度は78.23%である。
論文 参考訳(メタデータ) (2022-03-13T18:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。