論文の概要: PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition
- arxiv url: http://arxiv.org/abs/2212.10750v1
- Date: Wed, 21 Dec 2022 04:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 14:37:10.157472
- Title: PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and
Entailment Recognition
- Title(参考訳): PropSegmEnt: Proposition-Level Segmentation and Entailment Recognitionのための大規模コーパス
- Authors: Sihao Chen and Senaka Buthpitiya and Alex Fabrikant and Dan Roth and
Tal Schuster
- Abstract要約: 文中の各命題の文的含意関係を個別に認識する必要性について論じる。
提案するPropSegmEntは35K以上の提案のコーパスであり, 専門家によるアノテートを行う。
我々のデータセット構造は、(1)文書内の文章を命題の集合に分割し、(2)異なるが、トポジカルに整合した文書に対して、各命題の含意関係を分類するタスクに類似している。
- 参考スコア(独自算出の注目度): 63.51569687229681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widely studied task of Natural Language Inference (NLI) requires a system
to recognize whether one piece of text is textually entailed by another, i.e.
whether the entirety of its meaning can be inferred from the other. In current
NLI datasets and models, textual entailment relations are typically defined on
the sentence- or paragraph-level. However, even a simple sentence often
contains multiple propositions, i.e. distinct units of meaning conveyed by the
sentence. As these propositions can carry different truth values in the context
of a given premise, we argue for the need to recognize the textual entailment
relation of each proposition in a sentence individually.
We propose PropSegmEnt, a corpus of over 35K propositions annotated by expert
human raters. Our dataset structure resembles the tasks of (1) segmenting
sentences within a document to the set of propositions, and (2) classifying the
entailment relation of each proposition with respect to a different yet
topically-aligned document, i.e. documents describing the same event or entity.
We establish strong baselines for the segmentation and entailment tasks.
Through case studies on summary hallucination detection and document-level NLI,
we demonstrate that our conceptual framework is potentially useful for
understanding and explaining the compositionality of NLI labels.
- Abstract(参考訳): 自然言語推論(NLI)のタスクは、あるテキストが別のテキストに関連付けられているかどうか、すなわちその意味の全体が他のテキストから推測できるかどうかを認識する必要がある。
現在のNLIデータセットとモデルでは、典型的には文レベルまたは段落レベルでテキストエンターメント関係が定義される。
しかし、単純な文でさえ、しばしば複数の命題、すなわち文によって伝えられる意味の別個の単位を含んでいる。
これらの命題は、与えられた前提の文脈で異なる真理値を持つことができるため、文中の各命題のテキスト的含意関係を個別に認識する必要があると論じる。
提案するPropSegmEntは35K以上の提案のコーパスであり, 専門家によるアノテートを行う。
このデータセット構造は,(1)文書中の文を命題の集合に分割する作業,(2)異なる局所的に整理された文書,すなわち同一の出来事や実体を記述する文書に関して,各命題の帰属関係を分類する作業に類似している。
セグメンテーションと包含タスクの強力なベースラインを確立します。
要約幻覚検出と文書レベルのNLIのケーススタディを通じて,NLIラベルの構成性を理解し説明するために,我々の概念的枠組みが有用であることを示す。
関連論文リスト
- Aspect-based Meeting Transcript Summarization: A Two-Stage Approach with
Weak Supervision on Sentence Classification [91.13086984529706]
Aspect-based meeting transcript summarization は複数の要約を生成することを目的としている。
従来の要約手法は、全ての側面の情報を1つの要約で混合する。
アスペクトベースの会議書き起こし要約のための2段階の手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T19:06:31Z) - Natural Language Decompositions of Implicit Content Enable Better Text
Representations [56.85319224208865]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - An Inclusive Notion of Text [69.36678873492373]
テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である,と我々は主張する。
言語的および非言語的要素の2層分類を導入し,NLPモデリングに使用することができる。
論文 参考訳(メタデータ) (2022-11-10T14:26:43Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - A Survey of Implicit Discourse Relation Recognition [9.57170901247685]
暗黙的談話関係認識(IDRR)は、暗黙的関係を検出し、接続性のない2つのテキストセグメント間でその感覚を分類することである。
この記事では、IDRRタスクに関する包括的で最新の調査を提供する。
論文 参考訳(メタデータ) (2022-03-06T15:12:53Z) - Coherence-Based Distributed Document Representation Learning for
Scientific Documents [9.646001537050925]
本研究では,科学文書の表現を学習するために,結合テキストペア埋め込み(CTPE)モデルを提案する。
我々は、異なる文書から2つの部分を持つ非結合テキストペアを構築するために、負のサンプリングを使用する。
テキストペアが結合されているか、アンカップリングされているかを判断するためにモデルを訓練し、結合されたテキストペアの埋め込みを文書の埋め込みとして使用する。
論文 参考訳(メタデータ) (2022-01-08T15:29:21Z) - XTE: Explainable Text Entailment [8.036150169408241]
あるテキストが論理的に他のテキストから続くかどうかを判断する作業である。
XTE (Explainable Text Entailment) は、テキストエンターメントを認識するための新しい複合アプローチである。
論文 参考訳(メタデータ) (2020-09-25T20:49:07Z) - Understanding Points of Correspondence between Sentences for Abstractive
Summarization [39.7404761923196]
本稿では,文書から引き出された文の融合について,対応点の概念を導入して検討する。
我々は、文書、ソースおよび融合文、および文間の対応点の人間のアノテーションを含むデータセットを作成する。
論文 参考訳(メタデータ) (2020-06-10T02:42:38Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。