論文の概要: SciNLI: A Corpus for Natural Language Inference on Scientific Text
- arxiv url: http://arxiv.org/abs/2203.06728v1
- Date: Sun, 13 Mar 2022 18:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 14:50:03.727017
- Title: SciNLI: A Corpus for Natural Language Inference on Scientific Text
- Title(参考訳): SciNLI: 科学テキストによる自然言語推論のためのコーパス
- Authors: Mobashir Sadat and Cornelia Caragea
- Abstract要約: 我々は,NLIのための大規模データセットであるSciNLIを紹介した。
我々の実験によると、SciNLIは既存のNLIデータセットよりも分類が難しい。
- 参考スコア(独自算出の注目度): 47.293189105900524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Natural Language Inference (NLI) datasets, while being instrumental
in the advancement of Natural Language Understanding (NLU) research, are not
related to scientific text. In this paper, we introduce SciNLI, a large dataset
for NLI that captures the formality in scientific text and contains 107,412
sentence pairs extracted from scholarly papers on NLP and computational
linguistics. Given that the text used in scientific literature differs vastly
from the text used in everyday language both in terms of vocabulary and
sentence structure, our dataset is well suited to serve as a benchmark for the
evaluation of scientific NLU models. Our experiments show that SciNLI is harder
to classify than the existing NLI datasets. Our best performing model with
XLNet achieves a Macro F1 score of only 78.18% and an accuracy of 78.23 showing
that there is substantial room for improvement.
- Abstract(参考訳): 既存の自然言語推論(NLI)データセットは、自然言語理解(NLU)研究の進展に役立っているが、科学的テキストとは無関係である。
本稿では,NLPと計算言語学の学術論文から抽出した107,412の文対を含む,科学テキストの形式を捉えるNLIのための大規模データセットであるSciNLIを紹介する。
科学文献で用いられるテキストは語彙と文構造の両方において日常言語で使われるテキストとは大きく異なるので,本データセットは科学的なNLUモデルを評価するためのベンチマークとして適している。
我々の実験によると、SciNLIは既存のNLIデータセットよりも分類が難しい。
XLNetで最高のパフォーマンスモデルは、わずか78.18%のマクロF1スコアと78.23の精度で達成し、改善の余地があることを示しています。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference [65.37685198688538]
本稿では,5つの科学領域から抽出した132,320の文対を含むデータセットであるMSciNLIについて述べる。
我々は、微調整事前学習言語モデル(PLM)とLarge Language Model(LLM)によるMSciNLIの強力なベースラインを確立する。
ドメインシフトは、データセット内の異なるドメインの多様な特性を示す科学的なNLIモデルの性能を低下させることを示す。
論文 参考訳(メタデータ) (2024-04-11T18:12:12Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - CSL: A Large-scale Chinese Scientific Literature Dataset [30.606855209042603]
CSLは,396k論文のタイトル,要約,キーワード,学術分野を含む,中国科学文献の大規模データセットである。
我々の知る限り、CSLは中国初の科学的文書データセットである。また、この半構造化データは、多くの教師付きNLPタスクを構成することができる自然なアノテーションである。
本稿では,要約,キーワード生成,テキスト分類など,科学的領域のタスクにおけるモデルの性能を評価するためのベンチマークを提案する。
論文 参考訳(メタデータ) (2022-09-12T06:10:47Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z) - FarsTail: A Persian Natural Language Inference Dataset [1.3048920509133808]
自然言語推論(NLI)は、自然言語処理(NLP)の中心的なタスクの一つである。
我々はペルシア語でNLIタスクのための新しいデータセット(Farsiとしても知られる)を提示する。
FarsTailという名前のこのデータセットには、ペルシア語とインデックスされたフォーマットの両方で提供される10,367のサンプルが含まれている。
論文 参考訳(メタデータ) (2020-09-18T13:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。