論文の概要: DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference
- arxiv url: http://arxiv.org/abs/2106.09449v1
- Date: Thu, 17 Jun 2021 13:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-19 00:21:04.632131
- Title: DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference
- Title(参考訳): DocNLI: ドキュメントレベルの自然言語推論のための大規模データセット
- Authors: Wenpeng Yin, Dragomir Radev, Caiming Xiong
- Abstract要約: 自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
- 参考スコア(独自算出の注目度): 55.868482696821815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language inference (NLI) is formulated as a unified framework for
solving various NLP problems such as relation extraction, question answering,
summarization, etc. It has been studied intensively in the past few years
thanks to the availability of large-scale labeled datasets. However, most
existing studies focus on merely sentence-level inference, which limits the
scope of NLI's application in downstream NLP problems. This work presents
DocNLI -- a newly-constructed large-scale dataset for document-level NLI.
DocNLI is transformed from a broad range of NLP problems and covers multiple
genres of text. The premises always stay in the document granularity, whereas
the hypotheses vary in length from single sentences to passages with hundreds
of words. Additionally, DocNLI has pretty limited artifacts which unfortunately
widely exist in some popular sentence-level NLI datasets. Our experiments
demonstrate that, even without fine-tuning, a model pretrained on DocNLI shows
promising performance on popular sentence-level benchmarks, and generalizes
well to out-of-domain NLP tasks that rely on inference at document granularity.
Task-specific fine-tuning can bring further improvements. Data, code, and
pretrained models can be found at https://github.com/salesforce/DocNLI.
- Abstract(参考訳): 自然言語推論(NLI)は、関係抽出、質問応答、要約などの様々なNLP問題を解くための統一的なフレームワークとして定式化されている。
大規模なラベル付きデータセットが利用可能になったため、ここ数年で集中的に研究されている。
しかし、既存の研究の多くは単に文レベルの推論に重点を置いており、これは下流のNLP問題におけるNLIの適用範囲を制限するものである。
この作業はDocNLI – ドキュメントレベルのNLI用の,新たに構築された大規模データセットだ。
DocNLIは幅広いNLP問題から変換され、テキストのジャンルをカバーしている。
前提は常に文書の粒度に留まるが、仮説は単文から数百語の節まで様々である。
さらにDocNLIには、非常に限られたアーティファクトがあり、残念ながらいくつかの一般的な文レベルのNLIデータセットに広く存在している。
実験では,微調整がなくても,DocNLIで事前訓練されたモデルが一般的な文レベルのベンチマークで有望な性能を示し,文書の粒度の推測に依存する領域外NLPタスクによく適応することを示した。
タスク固有の微調整はさらなる改善をもたらす可能性がある。
データ、コード、事前訓練されたモデルはhttps://github.com/salesforce/DocNLIで見ることができる。
関連論文リスト
- MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference [65.37685198688538]
本稿では,5つの科学領域から抽出した132,320の文対を含むデータセットであるMSciNLIについて述べる。
我々は、微調整事前学習言語モデル(PLM)とLarge Language Model(LLM)によるMSciNLIの強力なベースラインを確立する。
ドメインシフトは、データセット内の異なるドメインの多様な特性を示す科学的なNLIモデルの性能を低下させることを示す。
論文 参考訳(メタデータ) (2024-04-11T18:12:12Z) - LawngNLI: A Long-Premise Benchmark for In-Domain Generalization from
Short to Long Contexts and for Implication-Based Retrieval [72.4859717204905]
LawngNLIは米国法的な見解から構築されており、高い精度で自動ラベルが付けられている。
短いコンテキストから長いコンテキストまでドメイン内の一般化のベンチマークを行うことができる。
LawngNLIは、含意に基づくケース検索と議論のためのシステムを訓練し、テストすることができる。
論文 参考訳(メタデータ) (2022-12-06T18:42:39Z) - Learning to Infer from Unlabeled Data: A Semi-supervised Learning
Approach for Robust Natural Language Inference [47.293189105900524]
自然言語推論(英: Natural Language Inference、NLI)は、一対の文(前提と仮説)の関係を、関係性、矛盾、意味的な独立性として予測することを目的としている。
近年、ディープラーニングモデルはNLIに有望なパフォーマンスを示しており、大規模で高価な人型アノテートデータセットに依存している。
半教師付き学習(SSL)は、トレーニングにラベルのないデータを活用することで、人間のアノテーションへの依存を減らすための一般的な手法である。
論文 参考訳(メタデータ) (2022-11-05T20:34:08Z) - Few-Shot Document-Level Event Argument Extraction [2.680014762694412]
イベント引数抽出(EAE)は文レベルではよく研究されているが、文書レベルでは未探索である。
FewDocAE は Few-Shot Document-Level Event Argument extract ベンチマークである。
論文 参考訳(メタデータ) (2022-09-06T03:57:23Z) - Falsesum: Generating Document-level NLI Examples for Recognizing Factual
Inconsistency in Summarization [63.21819285337555]
高品質なタスク指向の例でトレーニングデータを拡張した場合,NLIモデルがこのタスクに有効であることを示す。
我々は、制御可能なテキスト生成モデルを利用して、人間の注釈付き要約を摂動させるデータ生成パイプラインであるFalsesumを紹介した。
本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルにより,4つのベンチマークを用いて,要約における事実整合性を検出することにより,最先端のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-05-12T10:43:42Z) - Stretching Sentence-pair NLI Models to Reason over Long Documents and
Clusters [35.103851212995046]
自然言語推論(NLI)は,文ペア間の意味的関係を推定するフレームワークとして,NLPコミュニティによって広く研究されている。
我々は、NLIモデルの実アプリケーションへの直接ゼロショット適用性について、訓練された文ペア設定を超えて検討する。
本研究では,ContractNLIデータセット上で,フルドキュメント上で動作し,最先端のパフォーマンスを実現するための新たなアグリゲーション手法を開発した。
論文 参考訳(メタデータ) (2022-04-15T12:56:39Z) - Looking Beyond Sentence-Level Natural Language Inference for Downstream
Tasks [15.624486319943015]
近年,自然言語推論(NLI)タスクが注目されている。
本稿では,この不満足な約束を,質問応答(QA)とテキスト要約という2つの下流タスクのレンズから検討する。
我々は、NLIデータセットとこれらの下流タスクの主な違いが前提の長さに関係していると推測する。
論文 参考訳(メタデータ) (2020-09-18T21:44:35Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。