論文の概要: A MISMATCHED Benchmark for Scientific Natural Language Inference
- arxiv url: http://arxiv.org/abs/2506.04603v1
- Date: Thu, 05 Jun 2025 03:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.51437
- Title: A MISMATCHED Benchmark for Scientific Natural Language Inference
- Title(参考訳): 科学自然言語推論のためのMISMATCHEDベンチマーク
- Authors: Firoz Shaik, Mobashir Sadat, Nikita Gautam, Doina Caragea, Cornelia Caragea,
- Abstract要約: 我々はMISMATCHEDと呼ばれる科学NLIの新たな評価ベンチマークを導入する。
新しいベンチマークでは、PSYCHOLOGY、ENGINEERING、PUBLIC HEALTHの3つの非CSドメインをカバーする。
MISMATCHEDベンチマークを導入することに加え、モデルトレーニングにおいてそれらの間の暗黙的な科学的NLI関係を持つ文対を組み込むことで、科学的NLIの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 53.17435107472026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific Natural Language Inference (NLI) is the task of predicting the semantic relation between a pair of sentences extracted from research articles. Existing datasets for this task are derived from various computer science (CS) domains, whereas non-CS domains are completely ignored. In this paper, we introduce a novel evaluation benchmark for scientific NLI, called MISMATCHED. The new MISMATCHED benchmark covers three non-CS domains-PSYCHOLOGY, ENGINEERING, and PUBLIC HEALTH, and contains 2,700 human annotated sentence pairs. We establish strong baselines on MISMATCHED using both Pre-trained Small Language Models (SLMs) and Large Language Models (LLMs). Our best performing baseline shows a Macro F1 of only 78.17% illustrating the substantial headroom for future improvements. In addition to introducing the MISMATCHED benchmark, we show that incorporating sentence pairs having an implicit scientific NLI relation between them in model training improves their performance on scientific NLI. We make our dataset and code publicly available on GitHub.
- Abstract(参考訳): 科学自然言語推論(Scientific Natural Language Inference, NLI)は、研究論文から抽出された文のペア間の意味的関係を予測するタスクである。
既存のデータセットは様々なコンピュータサイエンス(CS)ドメインから派生しているが、非CSドメインは完全に無視されている。
本稿では,MISMATCHEDと呼ばれる科学NLIのための新しい評価ベンチマークを提案する。
新しいMISMATCHEDベンチマークは、3つの非CSドメイン(PSYCHOLOGY、ENGINEERING、PUBLIC HEALTH)をカバーし、2,700人の注釈付き文対を含んでいる。
我々は,SLM(Small Language Models)とLLM(Large Language Models)を併用したMISMATCHEDの強力なベースラインを確立する。
私たちの最高のパフォーマンスベースラインは、将来の改善のための実質的なヘッドルームを示すわずか78.17%のマクロF1を示している。
MISMATCHEDベンチマークを導入することに加え、モデルトレーニングにおいてそれらの間の暗黙的な科学的NLI関係を持つ文対を組み込むことで、科学的NLIの性能が向上することを示す。
データセットとコードはGitHubで公開しています。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference [65.37685198688538]
本稿では,5つの科学領域から抽出した132,320の文対を含むデータセットであるMSciNLIについて述べる。
我々は、微調整事前学習言語モデル(PLM)とLarge Language Model(LLM)によるMSciNLIの強力なベースラインを確立する。
ドメインシフトは、データセット内の異なるドメインの多様な特性を示す科学的なNLIモデルの性能を低下させることを示す。
論文 参考訳(メタデータ) (2024-04-11T18:12:12Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - SciNLI: A Corpus for Natural Language Inference on Scientific Text [47.293189105900524]
我々は,NLIのための大規模データセットであるSciNLIを紹介した。
XLNetで最高のパフォーマンスモデルでは、マクロF1スコアは78.18%、精度は78.23%である。
論文 参考訳(メタデータ) (2022-03-13T18:23:37Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z) - Probing the Natural Language Inference Task with Automated Reasoning
Tools [6.445605125467574]
自然言語推論(NLI)タスクは、現在のNLPにおいて重要なタスクである。
我々はNLIタスクの論理構造を調べるために他の手法を用いる。
我々は、機械指向の自然言語がNLI文のパースにどの程度うまく利用できるか、また、自動定理証明器が結果の式に対していかにうまく推論できるかを示す。
論文 参考訳(メタデータ) (2020-05-06T03:18:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。