論文の概要、ライセンス

# (参考訳) Falsesum:要約におけるFactual Unconsistency認識のための文書レベルのNLI例の生成 [全文訳有]

Falsesum: Generating Document-level NLI Examples for Recognizing Factual Inconsistency in Summarization ( http://arxiv.org/abs/2205.06009v1 )

ライセンス: CC BY 4.0
Prasetya Ajie Utama, Joshua Bambrick, Nafise Sadat Moosavi, Iryna Gurevych(参考訳) ニューラルネットワークの抽象要約モデルは、ソースドキュメントと事実上矛盾する要約を生成する傾向があります。 これまでの研究は、自然言語推論(NLI)の下流適用として、そのような事実的矛盾を認識するタスクを導入してきた。 しかし、現状のNLIモデルは、ターゲットタスクに一般化できないため、この文脈では不十分である。 本研究では,学習データを高品質なタスク指向の例で拡張した場合に,NLIモデルがこのタスクに有効であることを示す。 我々は,人間の注釈付き要約を乱すための制御可能なテキスト生成モデルを活用したデータ生成パイプラインであるfalsesumを導入する。 これまで導入されたドキュメントレベルのnliデータセットと異なり、生成されたデータセットには、多様で一貫性のない、しかも妥当な例が含まれています。 本研究では,Falsesumを付加したNLIデータセットでトレーニングしたモデルを用いて,4つのベンチマークを用いて,要約における事実整合性を検出する。 データセットを取得するコードはhttps://github.com/j oshbambrick/falsesum で入手できる。

Neural abstractive summarization models are prone to generate summaries which are factually inconsistent with their source documents. Previous work has introduced the task of recognizing such factual inconsistency as a downstream application of natural language inference (NLI). However, state-of-the-art NLI models perform poorly in this context due to their inability to generalize to the target task. In this work, we show that NLI models can be effective for this task when the training data is augmented with high-quality task-oriented examples. We introduce Falsesum, a data generation pipeline leveraging a controllable text generation model to perturb human-annotated summaries, introducing varying types of factual inconsistencies. Unlike previously introduced document-level NLI datasets, our generated dataset contains examples that are diverse and inconsistent yet plausible. We show that models trained on a Falsesum-augmented NLI dataset improve the state-of-the-art performance across four benchmarks for detecting factual inconsistency in summarization. The code to obtain the dataset is available online at https://github.com/j oshbambrick/Falsesum
公開日: Thu, 12 May 2022 10:43:42 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Falsesum: Generating Document-level NLI Examples Falsesum: ドキュメントレベルのNLIの例を生成する 0.63
for Recognizing Factual Inconsistency in Summarization 要約における虚偽の不整合の認識 0.59
Prasetya Ajie Utama†♦ プラーセティア・アジー・ウタマ(prasetya ajie utama)。 0.32
Joshua Bambrick† Nafise Sadat Moosavi‡♦ † Bloomberg, London, United Kingdom ジョシュア・バムリック(Joshua Bambrick) ナフィーズ・サダット・モオサビ(Nafise Sadat Moosavi) 0.45
Iryna Gurevych♦ イリナ・グレヴィチ(Iryna Gurevych) 0.42
♦ UKP Lab, Technical University of Darmstadt, Germany ドイツ、ダルムシュタット工科大学UKP研究室 0.46
‡ Department of Computer Science, The University of Sheffield シェフィールド大学計算機科学科 0.37
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] L C . s c [ 1 v 9 0 0 6 0 ]LC。 sc [ 1 v 9 0 0 6 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
{putama,jbambrick7}@bloomberg.net putama,jbambrick7}@bloomberg.net 0.43
Abstract Neural abstractive summarization models are prone to generate summaries which are factually inconsistent with their source documents. 概要 ニューラルネットワークの抽象要約モデルは、ソースドキュメントと事実上矛盾する要約を生成する傾向があります。 0.52
Previous work has introduced the task of recognizing such factual inconsistency as a downstream application of natural language inference (NLI). これまでの研究は、自然言語推論(NLI)の下流適用として、そのような事実的矛盾を認識するタスクを導入してきた。
訳抜け防止モード: 前回の作業は このような事実的矛盾を自然言語推論(nli)の下流適用として認識する。
0.68
However, state-of-the-art NLI models perform poorly in this context due to their inability to generalize to the target task. しかし、現状のNLIモデルは、ターゲットタスクに一般化できないため、この文脈では不十分である。 0.61
In this work, we show that NLI models can be effective for this task when the training data is augmented with high-quality task-oriented examples. 本研究では,学習データを高品質なタスク指向の例で拡張した場合に,NLIモデルがこのタスクに有効であることを示す。 0.72
We introduce Falsesum, a data generation pipeline leveraging a controllable text generation model to perturb human-annotated summaries, introducing varying types of factual inconsistencies. 我々は,人間の注釈付き要約を乱すための制御可能なテキスト生成モデルを活用したデータ生成パイプラインであるfalsesumを導入する。 0.73
Unlike previously introduced document-level NLI datasets, our generated dataset contains examples that are diverse and inconsistent yet plausible. これまで導入されたドキュメントレベルのnliデータセットと異なり、生成されたデータセットには、多様で一貫性のない、しかも妥当な例が含まれています。 0.43
We show that models trained on a Falsesum-augmented NLI dataset improve the state-of-the-art performance across four benchmarks for detecting factual inconsistency in summarization.1 Falsesum-augmented NLIデータセットでトレーニングされたモデルでは,要約における事実整合性を検出するための4つのベンチマークにおいて,最先端のパフォーマンスが向上していることを示す。
訳抜け防止モード: 訓練されたモデルが falsesum について - 拡張 nli データセットは状態を改善する - of - the - art performance across four benchmarks for detection factual unconsistency in summarization.1 (英語)
0.59
1 Introduction Recent advances in conditional text generation and the availability of large-scale datasets have given rise to models which generate highly fluent abstractive summaries (Lewis et al , 2019; Zhang et al , 2019). 1 はじめに 条件付きテキスト生成の最近の進歩と大規模データセットの可用性は、高度に流れる抽象的な要約を生成するモデルを生み出した(lewis et al , 2019; zhang et al , 2019)。 0.58
However, studies indicate that such models are susceptible to generating factually inconsistent outputs, i.e., where the content of the summary is not semantically entailed by the input document (Kryscinski et al , 2019; Goodrich et al , 2019). しかしながら、これらのモデルが実際に一貫性のない出力を生成すること、すなわち、要約の内容が入力文書によって意味的に含まない(kryscinski et al , 2019; goodrich et al , 2019)ことを示唆する研究がある。 0.76
This motivates a new line of research for recognizing factual inconsistency in generated summaries (Kryscinski et al , 2020; Pagnoni et al , 2021; Wang et al , 2020; Fabbri et al , 2021). これは生成された要約における事実的矛盾を認識するための新しい研究の行を動機付けている(Kryscinski et al , 2020; Pagnoni et al , 2021; Wang et al , 2020; Fabbri et al , 2021)。 0.80
1The code to obtain the dataset is available online at 1データセットを取得するコードはオンラインで入手できる。 0.72
https://github.com/j oshbambrick/Falsesum https://github.com/j oshbambrick/Falsesum 0.20
This factual consistency problem is closely related to the task of natural language inference (NLI) whereby a hypothesis sentence is classified as either entailed, neutral, or contradicted by a given premise sentence (Condoravdi et al , 2003; Dagan et al , 2006; Bowman et al , 2015). この事実整合性問題は、仮説文が与えられた前提文(Condoravdi et al , 2003; Dagan et al , 2006; Bowman et al , 2015)によって関連づけられた、中立的、あるいは矛盾しているものとして分類される自然言語推論(NLI)の課題と密接に関連している。 0.74
Using an input document as the premise and a corresponding generated summary as the hypothesis, earlier solutions have adopted out-of-the-box NLI models to detect factual inconsistency, albeit with limited success (Falke et al , 2019; Kryscinski et al , 2020). 入力文書を前提とし、それに対応する生成された要約を仮説として、初期のソリューションでは、事実の不整合を検出するために、実際のNLIモデルを採用してきた(Falke et al , 2019; Kryscinski et al , 2020)。
訳抜け防止モード: 入力文書を前提とし、対応する生成された要約を仮説とする。 初期のソリューションは、事実の矛盾を検出するために------ボックスのNLIモデルを採用しました。 Falke et al, 2019 ; Kryscinski et al, 2020 ) .
0.76
This poor performance largely stems from the fact that most NLI datasets are not designed to reflect the input characteristics of downstream tasks (Khot et al , 2018). この貧弱なパフォーマンスは、ほとんどのNLIデータセットが下流タスクの入力特性を反映するように設計されていないことに起因する(Khot et al , 2018)。 0.71
Such datasets may not always capture the kinds of entailment phenomena which naturally arise from neural abstractive summarization. このようなデータセットは、神経の抽象的要約から自然に生じる包含現象の種類を常に捉えているとは限らない。 0.59
More importantly, there is also a discrepancy in terms of the input granularity, i.e., the premises in this consistency classification task consist of multi-sentence documents while common NLI datasets use single-sentence premises. さらに重要なことは、入力の粒度の観点からも、この一貫性分類タスクの前提は複数文の文書で構成されており、共通のNLIデータセットは単一文の前提を使用する。 0.64
In this work, we introduce Falsesum, a data generation pipeline that produces NLI examples consisting of documents paired with gold summaries as positive examples and automatically generated inconsistent summaries as negative examples. 本研究では,金の要約と組み合わせた文書を正の例として生成し,非一貫性の要約を負の例として自動生成するデータ生成パイプラインFalsesumを紹介する。 0.78
We propose a novel strategy to train a text generation model to render false summaries of a given document using only supervision from an existing summarization dataset (Nallapati et al , 2016). 既存の要約データセット(nallapati et al , 2016)の監督のみを用いて,テキスト生成モデルを学習し,与えられた文書の誤った要約を作成する新しい戦略を提案する。 0.79
In addition, our generator supports switchable input control codes to determine the type of factual error exhibited in the generated output. さらに,本生成器はスイッチ可能な入力制御コードをサポートし,生成した出力に現れる事実エラーの種類を判定する。 0.79
This design allows Falsesum to compose diverse and naturalistic outputs which more closely resemble the inconsistent summaries generated by summarization models (Maynez et al , 2020). この設計により、Falsesumは、要約モデル(Maynez et al , 2020)によって生成される矛盾した要約によく似ている多様な自然主義的な出力を構成することができる。 0.61
This contrasts with previous solutions (e g , Kryscinski et al , 2020; Yin et al , 2021), which synthesize NLI examples using rule-based transformations これは、ルールベースの変換を用いてNLI例を合成する以前の解(例えば、Kryscinski et al , 2020; Yin et al , 2021)とは対照的である。
訳抜け防止モード: これは以前の解(例えば、Kryscinski et al)とは対照的である。 2020 ; Yin et al , 2021 ) ルールベース変換を用いた NLI 例の合成
0.80
英語(論文から抽出)日本語訳スコア
Figure 1: Overview of the Falsesum generation framework. 図1: Falsesum生成フレームワークの概要。 0.67
Falsesum preprocesses and formats the source document (A) and a gold summary (B) before feeding it to a fine-tuned generator model. Falsesumはソースドキュメント(A)とゴールドサマリー(B)を前処理してフォーマットし、微調整されたジェネレータモデルに供給する。 0.74
The model produces a factually inconsistent summary, which can then be used to obtain (A, D) or (A, E) as the negative (non-entailment) NLI premise-hypothesis example pair. このモデルは事実的に一貫性のない要約を生成し、(a, d) または (a, e) を負の nli 前提-仮説の例ペアとして得るのに使うことができる。 0.77
We also use the original (A, B) as a positive NLI example (entailment). また、元の (A, B) を正の NLI の例 (entailment) として用いる。 0.76
or language model-based replacements, limiting their diversity and ability to reflect realistic factual errors in summarization. あるいは言語モデルベースの置換で、要約における現実的な事実エラーを反映する多様性と能力を制限する。 0.66
Overall, our contributions in this paper are the following: 全体として、本稿における私たちの貢献は以下のとおりです。 0.57
First, we present a novel training pipeline to create a text generation model which takes as input a pair of a document and a corresponding gold summary. まず、文書と対応する金要約のペアを入力として入力するテキスト生成モデルを作成するための新しいトレーニングパイプラインを提案する。 0.72
It then perturbs the summary such that it is no longer factually consistent with the original document. すると、その要約が元の文書と事実上一致しないよう混乱させる。 0.73
Our strategy obviates the need for explicit examples of inconsistent summaries, using only an existing summarization dataset. 我々の戦略は、既存の要約データセットのみを使用して、一貫性のない要約の明示的な例の必要性を排除します。 0.49
We use this model to generate a large-scale NLI dataset for the task of recognizing factually inconsistent summaries. このモデルを用いて,現実的に一貫性のない要約を認識するための大規模NLIデータセットを生成する。 0.64
The resultant dataset consists of pairs with documents as the premise and naturalistic summaries as the hypotheses, each labeled as either entailment or non-entailment. 結果として得られたデータセットは、前提としてドキュメントと、仮説として自然主義的な要約からなる。 0.62
Second, we demonstrate the utility of our generated data for augmenting existing NLI datasets. 第二に、既存のNLIデータセットを増強するための生成データの有用性を実証する。 0.66
We show that on four benchmark datasets, NLI models trained on Falsesum-augmented data outperform those trained on previous document-level NLI datasets. 4つのベンチマークデータセットにおいて、Falsesum拡張データに基づいてトレーニングされたNLIモデルは、以前の文書レベルのNLIデータセットでトレーニングされたモデルよりも優れていることを示す。 0.47
We conduct an analysis to show that Falsesum-generated summaries are plausible and hard to distinguish from human-written summaries. 我々は、Falsesum生成した要約が人間による要約と区別し難いことを示す分析を行う。 0.63
Lastly, we show that the improvement over the benchmarks is largely attributable to the diversity of factual errors that Falsesum introduces. 最後に、ベンチマークに対する改善が、falsesumが導入する事実的エラーの多様性に起因していることを示す。 0.60
2 Related Work This work is related to the growing body of research into factual consistency and hallucination in text generation models, particularly for summa- 2 関連作業 この研究は、テキスト生成モデルにおける事実整合性と幻覚に関する研究の活発化と関係している。 0.75
rization (Cao et al , 2018). 国際化(cao et al、2018年)。 0.37
Research has found that around 30% of summaries generated by abstractive summarization models contain information which is inconsistent with the source document (Kryscinski et al , 2019). 抽象要約モデルによって生成された要約の約30%は、ソース文書と矛盾する情報を含んでいる(kryscinski et al , 2019)。 0.70
This motivates the development of an automatic approach to assess factual consistency in generated summaries, in addition to the benchmark datasets to measure the progress in this task (Falke et al , 2019; Kryscinski et al , 2020; Pagnoni et al , 2021; Fabbri et al , 2021). これは、生成した要約の事実整合性を評価するための自動アプローチの開発を動機付け、このタスクの進捗を測定するためのベンチマークデータセット(falke et al , 2019; kryscinski et al , 2020; pagnoni et al , 2021; fabbri et al , 2021)の他に動機付けている。 0.73
Earlier work by Goodrich et al (2019) proposes to use an information extraction model to extract relation tuples from the ground-truth summary text and the generated summary and then count the overlap as the measure of factuality. Goodrich et al (2019) の以前の研究は、情報抽出モデルを用いて、基幹の要約テキストと生成された要約から関係タプルを抽出し、重複を事実性の尺度として数えることを提案した。 0.64
Eyal et al (2019); Durmus et al (2020); Wang et al (2020) use a question-answering model to detect factual inconsistency by matching the predicted answers using the document and the summary as the context. Eyal et al (2019), Durmus et al (2020), Wang et al (2020), Wang et al (2020) は、予測された回答を文書と要約をコンテキストとしてマッチングすることにより、事実整合性を検出するための質問応答モデルを使用している。
訳抜け防止モード: eyal et al (2019 ) ; durmus et al (2020 ) ; wang et al (2020 ) は質問応答モデルを用いる。 予測された回答を文書と要約とをコンテキストとして一致させて、事実の矛盾を検出する。
0.78
Concurrently, researchers have drawn a connection between factual consistency and natural language inference (NLI), observing that all information in a summary should be entailed by the source document. 同時に、研究者は事実整合性と自然言語推論(NLI)の関係を描き、要約中の全ての情報がソース文書に関連付けられなければならないことを観察した。 0.76
While this approach enables the summary to be directly evaluated without first extracting its intermediate semantic structure, earlier attempts were largely unsuccessful. このアプローチでは、要約を最初に中間的な意味構造を抽出することなく直接評価することができるが、初期の試みは概ねうまくいかなかった。 0.61
Falke et al (2019) use the probabilities assigned to the entailment label by NLI models to re-rank the summary candidates given by beam search but found no improvement in the consistency errors. Falke et al (2019) は、NLIモデルによってエンテーメントラベルに割り当てられた確率を用いて、ビームサーチによって与えられる要約候補を再ランクするが、一貫性エラーの改善は見つからなかった。
訳抜け防止モード: Falke et al (2019 ) は NLI モデルによりエンテーメントラベルに割り当てられた確率を使用する re - ビームサーチによって与えられる要約候補をランク付けする しかし 整合性エラーは 改善されなかった。
0.76
Kryscinski et al (2020) evaluate out-of-the-box NLI models on the task of inconsistency detection in a binary classification setting and show that the performance is only slightly better than majority voting. Kryscinski et al (2020) は、二項分類設定における不整合検出のタスクにおいて、アウト・オブ・ザ・ボックスのNLIモデルを評価し、その性能が多数決よりもわずかに優れていることを示す。
訳抜け防止モード: Kryscinski et al (2020 ) による二項分類における不整合検出タスクにおける--ボックスNLIモデルの評価 過半数の投票よりも わずかに良い結果が得られます
0.79
In the same paper, Kryscinski et al (2020) pro- 同じ論文で、kryscinski et al (2020) pro- 0.71
Original document:[...] Melbourne, currently in its sixth lockdown, will see some restrictions eased on this date, when 70 percent of eligible Victorians are expected to have received their first vaccination jab after the time between AstraZeneca jabs was cut to six weeks. オリジナル文書:[...]メルボルンは現在6回目のロックダウン中だが、この日にいくつかの制限が緩和され、アストラゼネカ・ジャブの期間が6週間に短縮された後に、資格のあるビクトリア人の70%が最初のワクチン接種を受けたと予測されている。
訳抜け防止モード: オリジナルの文書:[...]メルボルンは現在6番目のロックダウンにある。 この日に制限が緩和されるでしょう 資格のあるビクトリア人の70%が アストラゼネカ・ジャブ間の期間が6週間に短縮された後、最初のワクチン接種を受けた。
0.66
[...]Gold summary:Australia&#x 27;s state of Victoria is currently under its sixth coronavirus lockdown.Control code: [intrinsic / extrinsic]Intrinsic error output:Australia 7;s state of Victoria is receiving their first vaccination jab Extrinsic error output:Australia 7;s state of Victoria is going back to normal intrinsicextrinsicPr eprocessingFormattin gFine-tuned T5-base FALSESUMABCDE Generated NLI pairs: ( , , entailment) ( , , non-entailment) ( , , non-entailment)ABADA E [...]Gold summary:Australia&#x 27;s state of Victoria is currently under its sixth coronavirus lockdown.Control code: [intrinsic / extrinsic]Intrinsic error output:Australia 7;s state of Victoria is receiving their first vaccination jab Extrinsic error output:Australia 7;s state of Victoria is going back to normal intrinsicextrinsicPr eprocessingFormattin gFine-tuned T5-base FALSESUMABCDE Generated NLI pairs: ( , , entailment) ( , , non-entailment) ( , , non-entailment)ABADA E
訳抜け防止モード: オーストラリアのビクトリア州は現在、新型コロナウイルスのロックダウンの6番目の段階にある。 制御符号 : [内因性/外因性]内因性エラー出力 オーストラリアのビクトリア州が初のワクチン接種を実施 オーストラリアのビクトリア州は、通常の内在性外在性PreprocessingFormatt ingFine - tuned T5-base FALSESUMABCDE Generated NLI pairs : (,,,) entailment) (, non-entailment) (,, non-entailment)ABADA E
0.73
英語(論文から抽出)日本語訳スコア
pose FactCC, a synthetic NLI data generation process which applies a set of transformation rules to obtain examples of inconsistent summaries (e g , sentence negation, entity swapping). pose factccは、変換規則のセットを適用する合成nliデータ生成プロセスで、一貫性のない要約(例えば、文の否定、エンティティの交換)の例を得る。 0.70
They demonstrate that the resulting NLI model performs well on realistic test cases which are obtained by manually annotating the output of several summarization models. 結果として得られたnliモデルは,複数の要約モデルの出力を手作業でアノテートして得られる現実的なテストケースでうまく機能する。 0.72
This highlights the importance of NLI examples beyond sentence-level granularity and which more closely resemble the input characteristics of the downstream tasks (Mishra et al , 2021).2 これは、文章レベルの粒度を超えたNLI例の重要性を強調し、下流タスクの入力特性によく似ている(Mishra et al , 2021)。 0.70
While the FactCC model is moderately effective for detecting factual inconsistency, subsequent work indicates that it only performs well on easier test cases, where highly extractive summaries (i.e., those with high lexical overlap between a summary and the source document) tend to be factually consistent and more abstractive summaries are likely to be inconsistent (Zhang et al , 2020). FactCCモデルは、事実の不整合を検出するのに適度に有効であるが、その後の研究は、高度に抽出された要約(要約とソース文書の間の語彙の重複が高いもの)が事実的に一貫性があり、より抽象的な要約が矛盾する(Zhang et al , 2020)場合にのみ有効であることを示している。 0.68
Furthermore, Goyal and Durrett (2021) show that the synthetic and rule-based nature of FactCC leads to lack of diversity of consistency error types and it poorly aligns with the error distribution found in more abstractive summaries. さらに、goyal と durrett (2021) は、factccの合成と規則に基づく性質は一貫性エラー型の多様性の欠如をもたらし、より抽象的な要約に見られるエラー分布と不十分に一致していることを示した。
訳抜け防止モード: さらに、Goyal and Durrett (2021 )は、 FactCCの合成と規則に基づく性質は、一貫性エラータイプの多様性の欠如につながる より抽象的な要約で見られる誤差分布とよく一致しません
0.83
Falsesum addresses these limitations using controlled natural language generation to construct an NLI dataset which better targets the summarization domain. Falsesumは、制御された自然言語生成を使用してこれらの制限に対処し、要約ドメインをよりターゲットとしたNLIデータセットを構築する。 0.53
Inspired by the recent work on controllable generation (Keskar et al , 2019; Ross et al , 2021), we employ a generation model conditioned on an input code which controls the type of consistency errors induced. 制御可能生成に関する最近の研究(Keskar et al , 2019; Ross et al , 2021)にインスパイアされ、入力コードに条件付き生成モデルを用いて、誘導される一貫性エラーの種類を制御する。 0.84
We further use the generated document-level NLI examples for augmentation and show that NLI models can benefit from the additional data without hurting their existing inference ability (Min et al , 2020). さらに、生成した文書レベルのNLIサンプルを拡張に使用し、既存の推論能力を損なうことなく、NLIモデルが追加データから恩恵を受けることを示す(Min et al , 2020)。 0.68
3 Falsesum Approach 3.1 Design Overview Falsesum takes as an input a source document D and a corresponding reference summary S+. 3 Falsesum Approach 3.1 Design Overview Falsesumは、ソース文書Dと対応する参照要約S+とを入力として取る。
訳抜け防止モード: 3 Falsesum Approach 3.1 Design Overview Falsesum take an input a source document D そして対応する参照サマリー S+ である。
0.92
The framework then preprocesses and formats D and S+ and feeds them into a generation model G which outputs a factually inconsistent summary S−. フレームワークは、D と S+ を前処理し、それらを生成モデル G に供給し、現実的に一貫性のない要約 S− を出力する。 0.61
For each summarization example, we then have both positive (entailment) and negative (non- 各要約の例では、正(包含)と負(非)の両方を持つ。 0.69
2Contemporaneous work by Laban et al (2022) attempts to improve the application of sentence-level NLI models to detect document-level factual inconsistencies using a learnable aggregation of sentence-level predictions. 2 Laban et al (2022) による共生的な研究は、文レベルの予測の学習可能な集約を用いて、文書レベルの事実矛盾を検出するための文レベルのNLIモデルの適用を改善しようとしている。 0.57
Our work is orthogonal since they can benefit from better quality training examples to train their aggregation weights. 私たちの仕事は直交的です。より優れたトレーニング例から、集約重みをトレーニングできるからです。 0.64
entailment) NLI tuples (D, S+, Y = 1), (D, S−, Y = 0), which consist of a document-level premise, a summary sentence, and the consistency label (1 indicates entailment). entailment) NLI タプル (D, S+, Y = 1), (D, S−, Y = 0) は文書レベルの前提、要約文、一貫性ラベル (1 はentailment) から構成される。 0.70
Falsesum aims to produce a naturalistic S− which is contrastive with respect to its corresponding S+. Falsesum は、対応する S+ に対して対照的な自然主義的な S− を生成することを目指している。 0.62
This means that S+ and S− should be indistinguishable in their surface characteristics (e g , style, length, vocabularies) and only differ in their factual consistency with respect to D. This ensures that the resulting NLI model learns the correct notion of factual consistency rather than discriminating based on surface features (McCoy et al , 2019). これは、S+ と S− は、その表面特性(例えば、スタイル、長さ、語彙)において区別不能であり、D に関して実際の整合性だけが異なることを意味している。
訳抜け防止モード: つまり、S+ と S− は表面特性(例えば、S+ と S− は区別できないはずである。 結果として得られるNLIモデルは、表面的特徴(McMoy et al, 2019)に基づいて識別するよりも、事実的一貫性の正しい概念を学ぶことが保証される。
0.70
In addition to naturalness, we consider the diversity of the consistency error types exhibited by S−. 自然性に加えて、S−によって示される整合誤差型の多様性も考慮する。 0.72
We follow the consistency error typology introduced by Maynez et al (2020), which categorizes consistency errors as either intrinsic, i.e., errors due to incorrect consolidation of information from the source document, or extrinsic, i.e., errors due to assuming new information not directly inferable from the contents of the source document. 我々は、Maynez et al (2020) が導入した一貫性エラーのタイプロジに従い、一貫性エラーを本質的、すなわち、ソース文書からの情報の不正な統合によるエラー、すなわち、ソース文書の内容から直接推測できない新しい情報を想定したエラーのいずれかに分類する。 0.76
As illustrated in Figure 1, a generation model G is trained to imitate the consistency mistakes of summarization models. 図1に示すように、生成モデルGは、要約モデルの一貫性ミスを模倣するように訓練される。 0.75
Specifically, it generates perturbed summaries by either (1) incorrectly inserting pieces of information from the source document into random spans of the original summary; or (2) amending pieces of information in the summary by hallucinating new “facts” not present in the source document. 具体的には、(1)ソース文書からの情報を元の要約のランダムなスパンに誤って挿入すること、または(2)ソース文書に存在しない新しい“成果物”を幻覚させることによって要約中の情報の修正を行うことにより、混乱した要約を生成する。 0.72
To this end, the framework identifies (♦i) what information or “facts” in the source document are available to the generator; and (♦ii) where the incorrect information can be inserted into the gold summary, which is indicated by span masking. この目的のために、このフレームワークは、ソースドキュメントのどの情報や“成果物”がジェネレータで利用可能か、そして(シイ)スパンマスキングによって示されるゴールドサマリーに誤った情報を挿入できるかを(シイ)特定する。 0.71
We obtain both by subsequently performing input preprocessing and formatting steps (§3.2 and §3.3). 入力プリプロセッシングとフォーマッティングのステップ(3.2と3.3)を実行し、両方を得る。 0.61
Next, we define the following seq2seq task to train the model G: “Given (♦i) a list of shuffled and formatted pieces of information extracted from source document and gold summary and (♦ii) a partially masked gold summary, fill in the blanks and generate the original gold summary.” 次に、モデルgをトレーニングするためのseq2seqタスクを定義します。 "given (i) ソースドキュメントとゴールドサマリーから抽出されたシャッフルおよびフォーマットされた情報のリストと (ii) 部分的にマスクされたゴールドサマリーと空白を埋め、元のゴールドサマリーを生成する。
訳抜け防止モード: 次に、以下のseq2seqタスクを定義してモデルgをトレーニングします。 " given ( ] i ) a list of shuffled and formatted information extract from source document and gold summary 部分的に隠された金の要約を 空白に記入します そして、元のゴールドサマリーを生成します。
0.84
Note that using gold summaries means that we can apply the existing summarization corpus to train G to generate more coherent and plausible sentences. 金の要約を用いることで、既存の要約コーパスをGの訓練に応用し、より一貫性のある可算文を生成することができる。 0.53
3.2 Input Preprocessing Following Goodrich et al (2019), “facts” in the source document and the gold summary are de- 3.2 入力前処理 goodrich et al (2019)に続いて、ソースドキュメントの“facts”と金の要約はde-である。 0.61
英語(論文から抽出)日本語訳スコア
fined as an open information extraction (OpenIE) tuple, which represents the predicate and argument structures found in a sentence. 文中の述語と引数の構造を表すオープン情報抽出(OpenIE)タプルとして罰金が科される。 0.71
We denote each relation tuple as (arg0, pred, . . . , argn), where predicate pred describes the event (what happened) and its complementing semantic arguments arg represent the who, to whom, where, or how of the event. それぞれの関係タプルを (arg0, pred, . . . . . . . . argn) と表現し、述語 pred がその事象(何が起こったか)を記述し、その補完的な意味論arg はwho、who、where、あるいはイベントの方法を表す。 0.71
Predicates are usually the main verb of a clause. 述語は通常、節の主動詞である。 0.66
Both predicates and their arguments consist of spans of tokens (Fader et al , 2011). 述語とその引数はトークンのスパンで構成される(fader et al , 2011)。 0.74
We use an OpenIE implementation of PredPatt (White et al , 2016; Zhang et al , 2017), a pattern-based framework for predicate-arguments extraction.3 私たちはPredPatt(White et al , 2016; Zhang et al , 2017)のOpenIE実装を使用します。
訳抜け防止モード: predpatt(white et al, 2016 ; zhang et al, 2017)のopenie実装を使用している。 述語-引数抽出のためのパターンベースフレームワーク3
0.70
As illustrated in the top half of Figure 2, we extract the relation tuples from each source document and its corresponding reference summaries. 図2の上半分に示すように、各ソース文書とその対応する参照要約から関係タプルを抽出する。 0.69
To minimize the risk of G inadvertently generating consistent summaries, we corrupt each extracted “fact” by removing one randomly chosen argument from each tuple. Gが不注意に一貫した要約を生成するリスクを最小限に抑えるため、各タプルからランダムに選択された引数を1つ取り除き、抽出した“ファクト”を破損させた。 0.53
For instance, OpenIE may extract the following tuple from a sentence: 例えば、OpenIEは以下のタプルを文から抽出することができる。 0.73
( Jo ARG0 , ( 丈 ARG0 , 0.42
plans to give PRED , 与える計画 序文 , 0.36
Alex ARG1 アレックス ARG1 0.50
, apples ARG2 , リンゴ ARG2 0.48
) We then randomly choose applesARG2 to be removed from the tuple. ) 次に、タプルから削除される applesARG2 をランダムに選択します。 0.53
We additionally lemmatize the dependency root word of each argument and predicate span, e g , plans to give ⇒ plan to give. さらに、各引数の依存根語と述語スパン、例えば、与えるべき計画を与える計画についても補足する。 0.64
This forces the model to learn to correct for grammaticality by inflecting the spans when inserting them to the masked spans. これによりモデルでは、マスクされたスパンにスパンを挿入する際にスパンを反射させることで、文法性の修正を学ぶことができる。 0.45
Once all such spans are extracted and processed, they are grouped and shuffled into two lists (predicates and arguments). これらのスパンが抽出され処理されると、グループ化され、2つのリスト(述語と引数)にシャッフルされる。 0.68
Input Formatting 3.3 Let P = (PRED1, . . . , PREDn) and A = (ARG1, . . . , ARGm) be the unordered lists of extracted predicates and arguments from a source document D and the summary sentence S+. 入力フォーマット 3.3 P = (PRED1, . . . . . . . PreDn) と A = (ARG1, . . ., ARGm) をソース文書Dと要約文S+から抽出された述語と引数の未順序リストとする。 0.82
Additionally, we assume a masked summary sentence M (described later), derived from S+, and a control code variable c ∈ {intrinsic, extrinsic}. さらに、S+から派生したマスク付き要約文M(後述)と制御符号変数c ∈ {intrinsic, extrinsic}を仮定する。 0.67
Generator G is trained to compute p(S+|P, A, M, c). 発電機Gはp(S+|P,A,M,c)を計算するように訓練される。 0.64
As illustrated in the bottom half of Figure 2, we encode all the conditional variables into the following format: 図2の下半分に示すように、すべての条件変数を以下のフォーマットにエンコードします。 0.73
Predicates:P; Arguments:A; Code:c; Summary:M Predicates:P; Arguments:A; Code:c; Summary:M 0.43
In the following, we describe the key steps in the input formatting process: 以下に、入力フォーマットプロセスにおける重要なステップについて説明する。 0.72
3We note that the quality of the OpenIE extractions may impact the overall quality of our data generation framework. 3 オープンIE抽出の品質がデータ生成フレームワーク全体の品質に影響を及ぼす可能性があることに留意する。 0.76
Figure 2: Input format design of Falsesum. 図2:Falsesumの入力フォーマット設計。 0.73
The framework first extracts the predicate and argument spans from the source document and the gold summary. フレームワークはまず、ソースドキュメントとゴールドサマリーから述語と引数スパンを抽出する。 0.58
The spans are then corrupted, lemmatized, and shuffled before being inserted into the input template. その後、スパンは破損し、補間され、入力テンプレートに挿入される前にシャッフルされる。 0.63
Step 1: Span Removal Initially, P and A include predicate and argument spans from the original summary which may be used to reconstruct S+. ステップ1: スパン除去 最初は、P と A は、S+ の再構成に使用されるオリジナルの要約から述語と引数を包含する。 0.79
However, at test time we remove these “gold” spans from the two lists to force the G to make consistency mistakes. しかしながら、テスト時にこの2つのリストから“ゴールド”のスパンを取り除き、Gに一貫性のミスを強制します。 0.67
The removal is also done when training the model for control code extrinsic to train G to predict plausible unseen spans.4 除去はまた、制御コードのためのモデルを訓練し、Gを訓練し、可視な見えないスパンを予測するときに行われる。
訳抜け防止モード: 取り外すのも 制御コードexrinsicのモデルをトレーニングしてgを訓練して、見当たらないspans.4を予測する
0.64
We summarize the different input formatting in Table 1. 異なる入力形式をテーブル1で要約する。 0.68
Step 2: Span Reduction To encourage G to generate fine-grained errors (Pagnoni et al , 2021; Goyal and Durrett, 2021), we also train it to hallucinate incorrect modifiers into spans from P and A. To this end, we randomly drop adjectives and adverbs from 10% of the gold predicate and argument spans. ステップ2: Span Reduction G にきめ細かい誤差(Pagnoni et al , 2021; Goyal and Durrett, 2021)を生じさせるため、不正確な修飾子を P と A のスパンに幻覚させるよう訓練する。
訳抜け防止モード: ステップ2 : スパンリダクション G にきめ細かい誤差を発生させる(Pagnoni et al,) 2021 ; Goyal and Durrett, 2021 ) to hallucinate incorrect modifiers into spans from P and A. 金の述語と引数の10%から形容詞と副詞をランダムにドロップします。
0.67
For instance, an argument span “recently elected prime minister” will be reduced to “minister”. 例えば、「最近選出された首相」の議論は「大臣」に縮小される。 0.63
This teaches the model to generate the remaining part of the span given only the context provided in the formatted input. これは、フォーマットされた入力で提供されるコンテキストのみを与えられたスパンの残りの部分を生成するようにモデルに教える。
訳抜け防止モード: これがモデルを教える フォーマットされた入力で提供されるコンテキストのみを指定したスパンの残りの部分を生成する。
0.70
Step 3: Control Code To control the type of consistency errors generated by G, we append the string “code:” followed by either “intrinsic” or “extrinsic” into the input tokens. ステップ3: コントロールコード Gが生成した一貫性エラーのタイプを制御するために、"code:"という文字列に"intrinsic"または"extrinsic"のいずれかを入力トークンに追加します。 0.84
The code is determined randomly with equal probability of 0.5. 符号は確率0.5でランダムに決定される。 0.79
4It is possible that some spans from the source document are duplicates of gold ones. 4 ソース文書のスパンの一部が金のスパンの複製である可能性がある。 0.70
For instance, the document may mention “The Queen of England”, while the gold span from the summary is “The Queen”. 例えば、この文書には「イングランドの女王」と書かれており、要約からの金のスパンは「女王」である。 0.75
We use a simple heuristic to remove such duplicates by searching for other spans whose (lemmatized) dependency root token is the same. 我々は単純なヒューリスティックを使って、(冗長化された)依存性のルートトークンが同じである他のスパンを検索することで、そのような重複を取り除く。
訳抜け防止モード: 私たちは単純なヒューリスティックを使います 複製を)取り除く 依存ルートトークンが同じである他のスパンを探すことで。
0.67
Predicates: , , … , ; Arguments: , , …. 述語: , , ... , ; 代名詞: , , ...。 0.63
, ; Code: [intrinsic | extrinsic]; Summary: <span_1> <span_0> under its sixth coronavirus lockdown arg1Australia’s State of Victoriapred1isarg1u nder its sixth coronavirus lockdownGold summary:arg1Melbourn earg1willpred1seeOri ginal document:pred4was cutarg2some restrictionspred2eas edwhen arg370 percent of eligible Victoriansare expected to have pred3receivedarg3the ir first vaccination jabafterarg4the time between AstraZeneca jabsarg4to six weeks[...] Input:Australia’s State of Victoria is under its sixth coronavirus lockdown </s>Output: , ; Code: [intrinsic | extrinsic]; Summary: <span_1> <span_0> under its sixth coronavirus lockdown arg1Australia’s State of Victoriapred1isarg1u nder its sixth coronavirus lockdownGold summary:arg1Melbourn earg1willpred1seeOri ginal document:pred4was cutarg2some restrictionspred2eas edwhen arg370 percent of eligible Victoriansare expected to have pred3receivedarg3the ir first vaccination jabafterarg4the time between AstraZeneca jabsarg4to six weeks[...] Input:Australia’s State of Victoria is under its sixth coronavirus lockdown </s>Output:
訳抜け防止モード: ; Code : [intrinsic | extrinsic ] ; Summary : < span_1 > < span_0 > under its six coronavirus lockdown arg1Australia 's ビクトリア4was cutarg2some limitd2easedwhen arg370% ビクトリア州住民の予測値:arg2easedwhen arg370% to have pred3receivedarg3the ir first vaccination jabafterarg4 the time between AstraZeneca jabsarg4 to 6 weeks [...] Input オーストラリアのビクトリア州は第6回目の新型コロナウイルスロックダウン</s>のアウトプットを受けている。
0.81
英語(論文から抽出)日本語訳スコア
Mode train intrinsic test intrinsic モード列車内在 内在するテスト 0.67
train extrinsic test extrinsic 臨時列車 テストエキソリン性 0.50
Input Predicates : caught, plead guilty to, . . . , appear before, face; Arguments : the corruption scandal, Two Pennsylvania judges, . . . , many children, the U.S. Code : intrinsic; Summary :<span_1> <span_0> federal fraud charges. 訴状:汚職スキャンダル、ペンシルベニア州の2人の判事、多くの子供、アメリカ法典:本質的、概要:<span_1> <span_0> 連邦詐欺罪。
訳抜け防止モード: 入力述語 : 捕まり、有罪を言い渡される。 前もって現れよう; 議論: 汚職スキャンダル、2人のペンシルベニア判事... 多くの子供、米国法典 : 内在的; 要約: < span_1> < span_0> 連邦詐欺罪
0.61
Predicates : caught, plead guilty to, . . . , appear before, face; Arguments : the corruption scandal, Two Pennsylvania judges, . . . , many children, the U.S. Code : intrinsic; Summary :<span_1> <span_0> federal fraud charges. 訴状:汚職スキャンダル、ペンシルベニア州の2人の判事、多くの子供、合衆国法典:本質的、概要:<span_1> <span_0> 連邦詐欺罪。
訳抜け防止モード: 被告人:捕まり、有罪判決を受ける。 疑惑 : 汚職スキャンダル,ペンシルベニア州の2人の判事,... 多くの子供、米国法典 : 内在的; 概要 : < span_1 > < span_0 > 連邦詐欺罪。
0.57
Predicates : is pressing for, limit, . . . , is being erode, is fight; Arguments : panelist, action, . . . , sea level, Arctic melt, at the climate change conference Code : extrinsic; Summary : The Alliance <span_0> <span_1> <span_2>. 述語: is press for, limit, . . . . is be erode, is fight; arguments: panelist, action, . . . . . . . . arctic melt, at the climate change conference code : extrinsic; summary : the alliance <span_0> <span_1> <span_2>。 0.42
Predicates : is pressing for, limit, . . . , is being erode, is fight; Arguments : panelist, action, . . . , sea level, Arctic melt, at the climate change conference Code : extrinsic; Summary : The Alliance <span_0> <span_1> <span_2>. 述語: is press for, limit, . . . . is be erode, is fight; arguments: panelist, action, . . . . . . . . arctic melt, at the climate change conference code : extrinsic; summary : the alliance <span_0> <span_1> <span_2>。 0.42
Expected Output Description Two Pennsylvania judges plead guilty to federal fraud charges. 期待出力 解説 ペンシルベニア州の判事2人が連邦詐欺罪で有罪を認めた。 0.64
Many of the children face federal fraud charges. 子供の多くは連邦詐欺罪に問われる。 0.74
The Alliance is pressing for action at the climate change conference. この同盟は気候変動に関する会議で行動を促している。 0.77
The Alliance is planning to impose limits on emissions. 同盟は排出ガスの制限を課す計画だ。 0.63
Model learns to combines listed spans to produce most plausible summary. モデルはリストされたスパンを組み合わせて最も説得力のある要約を生成することを学ぶ。 0.49
Model dates information. consoliincorrect モデルは日付情報。 consoliincorrect~ 0.57
learns Model to hallucinate new unsupported information. 新たな支援情報を幻覚させるモデルを学ぶ。 0.55
Model cinates unsupported information. モデル・シネーズ 禁止情報。 0.49
hallunew Table 1: Examples of input formatting on two different summarization instances for both intrinsic and extrinsic error types during training and testing. ハルーニュー 表1: トレーニングおよびテスト中の内在的および外在的エラータイプに対する、2つの異なる要約インスタンスの入力フォーマットの例。 0.53
Gold input spans (indicated by boldface), which are extracted from the gold summary, are only visible to the model during intrinsic training. 金の入力スパン(太字で示される)は金の要約から抽出され、本質的なトレーニング中にのみモデルに表示される。 0.73
They are removed from the input in all other settings, as indicated by strikethrough text. 他のすべての設定で、ストライクスルーテキストで示されるように、入力から削除される。 0.60
Once the code is chosen, we perform the remaining formatting steps accordingly (see Table 1). コードが選択されると、残りのフォーマットステップを実行します(表1参照)。 0.70
Step 4: Summary Masking We derive masked summary M by replacing the spans of randomly selected predicates and arguments with a special token <span_i>, where i = 0 is reserved for the predicate, and i > 0 for their arguments. ステップ4:概要 マスキング 私たちは、ランダムに選択された述語と引数のスパンを特別なトークン<span_i>に置き換え、i = 0 を述語に、i > 0 を引数に置き換えることで、要約 M を導出した。 0.71
These tokens control where the incorrect information should be inserted by the generator model into the original summary (see Table 1). これらのトークンは、ジェネレータモデルが不正な情報を元のサマリーに挿入すべき場所を制御する(表1参照)。 0.70
3.4 Training Falsesum We run the Falsesum data generation pipeline on the train split of the CNN/DailyMail corpus (Hermann et al , 2015), originally collected for question answering, but subsequently reformulated for summarization by Nallapati et al (2016). 3.4 訓練 Falsesum 我々は、CNN/DailyMailコーパス(Hermann et al , 2015)の列車分割でFalsesumデータ生成パイプラインを走らせ、質問応答のために収集したが、その後、Nallapati et al (2016)によって要約のために再編成された。 0.69
This dataset contains English news documents paired with human-written summaries, each consisting of multiple sentences. このデータセットは、複数の文からなる人文による要約と組み合わせた英語ニュース文書を含む。 0.65
We break the summaries down such that each Falsesum example consists of the document text and a single sentence summary. それぞれのFalsesumサンプルが文書テキストと1つの文要約で構成されているように要約を分解する。 0.78
We then run the preprocessing and formatting steps on each document-summary pair. 次に、各文書-要約ペアで前処理とフォーマットのステップを実行します。 0.62
The resulting pairs of formatted input and target output are subsequently split into train and test sets which consist of 394,774 and 262,692 instances, respectively. その結果得られた入力とターゲット出力のペアは、それぞれ394,774インスタンスと262,692インスタンスからなるトレインとテストセットに分割される。 0.81
We use the T5-base model (Raffel et al , 2020) as generator G and fine-tune it on the seq2seq task described in §3.1. 我々は、T5ベースモデル(Raffel et al , 2020)をジェネレータGとして使用し、sq2seqタスクに微調整する。 0.65
The NLI examples are produced by running the fine-tuned generator on the preprocessed and formatted test split.5 nliの例は、プリプロセスおよびフォーマットされたテストスプリットで微調整されたジェネレータを実行することで生成される。
訳抜け防止モード: nliの例は プリプロセスおよびフォーマットされたテストスプリットで微調整されたジェネレータを実行する
0.64
This renders an equal number of positive and negative examples. これは同じ数の正と負の例を示す。 0.82
In our experiments, we randomly sample 100,000 Falsesum examples to augment the NLI dataset. 実験では,10万個のFalsesumサンプルをランダムにサンプリングし,NLIデータセットを増強した。 0.64
4 Experimental Settings Our experiments aim to demonstrate the effectiveness of Falsesum-generated document-level examples for NLI dataset augmentation. 4 実験的設定 実験の目的は,nliデータセット拡張のためのfalsesum生成文書レベル例の有効性を示すことである。 0.74
We evaluate the downstream performance of the NLI models by testing them against several benchmarks for determining the factual inconsistency of generated summaries. 生成した要約の事実整合性を決定するために,複数のベンチマークに対してNLIモデルの下流性能を評価する。 0.70
In this section, we describe the training setup of the NLI models, including the model and both the sentence- and document-level datasets. 本稿では,nliモデルのトレーニング設定について述べる。モデルと文レベルのデータセットと文書レベルのデータセットの両方を含む。 0.74
4.1 Training NLI models We train several NLI models by fine-tuning RoBERTa-base (Liu et al , 2019) on either the original or the augmented MNLI dataset (Williams et al , 2018). 4.1 NLIモデルのトレーニング RoBERTaベース(Liu et al , 2019)をオリジナルまたは拡張MNLIデータセット(Williams et al , 2018)で微調整することで、いくつかのNLIモデルをトレーニングする。 0.78
The MNLI dataset consists of 392,702 train instances, each labeled mnliデータセットは392,702の列車インスタンスで構成され、それぞれにラベルが付けられている 0.47
5See Appendix A for the hyperparameter details. 5 ハイパーパラメータの詳細は appendix a を参照してください。 0.56
英語(論文から抽出)日本語訳スコア
as either “entailment”, “neutral”, or “contradiction”. 詳細”、”中立”、あるいは“矛盾”のいずれかとして。 0.63
To enable the application of NLI data to this factual consistency task, we use a binary formulation of NLI, where the “neutral” and “contradiction” labels are combined into “non-entailment”. この事実整合性タスクにNLIデータを適用可能にするために、NLIのバイナリ定式化を用い、「中立」ラベルと「反対」ラベルを「非包含」ラベルに結合する。 0.62
The document-level inputs are formatted similarly to sentence-level examples, i.e., the document premise D and summary hypothesis (S+ or S−) are concatenated and a special classification token ([CLS]) is used (Devlin et al , 2019). 文書レベルの入力は文レベルの例と同様にフォーマットされ、文書前提Dと要約仮説(S+またはS−)が連結され、特別な分類トークン([CLS])が使用される(Devlin et al , 2019)。 0.85
Document-level NLI datasets We conduct augmentation comparisons with several multi-sentence NLI datasets which obtain examples from news or summarization domains. 文書レベルのNLIデータセット 私たちは、ニュースや要約ドメインからサンプルを取得する複数の多文NLIデータセットと拡張比較を行います。 0.59
We consider the following datasets: ANLI (Nie et al , 2020), a paragraphlevel NLI dataset collected via an iterative and adversarial human-in-the-loop annotation protocol. 我々は以下のデータセットを考察する: ANLI (Nie et al , 2020) は、反復的かつ逆向きな人文対ループアノテーションプロトコルを介して収集された段落レベルのNLIデータセットである。 0.64
It consists of mostly Wiki data but also includes a small portion of news text; DocNLI (Yin et al , 2021), a document-level NLI dataset containing multi-sentence premise and hypothesis sentences, collected by converting QA examples to NLI instances (Demszky et al , 2018) and replacing words and sentences in news summaries using a language model; FactCC (Kryscinski et al , 2020), a large-scale dataset specifically generated for training summary factual correctness classification models. 主にWikiデータで構成されているが、ニューステキストのごく一部を含む。DocNLI (Yin et al , 2021)、多文前提と仮説文を含む文書レベルのNLIデータセットで、QA例をNLIインスタンスに変換して(Demszky et al , 2018)、言語モデルを用いてニュース要約における単語と文を置換することにより収集される(FactCC (Kryscinski et al , 2020)。 0.75
The positive examples in FactCC are obtained by backtranslating a random sentence from a CNN/DailyMail news story, while negative examples are obtained by perturbing the sentence using predefined rules, e g , entity swapping. FactCCのポジティブな例は、CNN/DailyMailニュースストーリーからランダムな文を逆翻訳することで得られ、ネガティブな例は、予め定義された規則、例えばエンティティスワップを用いて文を摂動することによって得られる。 0.62
For fair comparison, we sample 100,000 examples from each augmentation dataset in our experiments. 公正な比較のために、実験では各拡張データセットから10万のサンプルをサンプリングした。 0.58
4.2 Benchmark Datasets We evaluate these NLI models on four benchmark datasets to classify the factual consistency of abstractive summaries. 4.2ベンチマークデータセット これらのnliモデルを4つのベンチマークデータセットで評価し、抽象要約の事実整合性を分類する。 0.66
These datasets differ in terms of the annotation protocol, the granularity of the summaries (single- or multi-sentence), the summarization corpus used, and the models used to generate the summaries that are annotated. これらのデータセットは、アノテーションプロトコル、要約の粒度(シングルまたはマルチセンテンス)、使用済みの要約コーパス、注釈付き要約を生成するのに使用されるモデルによって異なる。 0.67
The tasks are formulated as a binary classification with the labels “consistent” and “inconsistent”. タスクはバイナリ分類として定式化され、ラベルは“consistance”と“inconsistence”である。 0.66
We evaluate NLI models on these tasks by mapping the predicted label “entailment” to “consistent” and “non-entailment” to “inconsistent”. 我々は,これらのタスクにおけるNLIモデルの評価を行い,予測ラベルの“エンタテインメント”を“一貫性”と“非エンタテインメント”を“一貫性”にマッピングした。
訳抜け防止モード: 予測ラベル“entailment ” を“ consistent ” にマッピングすることで,これらのタスク上のNLIモデルを評価する。 そして “non-entailment ” を “inconsistent ” にします。
0.71
The benchmarks datasets are detailed in the following: FactCC In addition introducing a synthetic training dataset for the task, Kryscinski et al (2020) factcc はタスクのための総合的なトレーニングデータセットである kryscinski et al (2020) を導入している。
訳抜け防止モード: ベンチマークデータセットは、以下のとおりである。 factcc、さらに、タスクのための総合的なトレーニングデータセットの導入。 kryscinski et al (2020)
0.62
introduce a manually annotated test set. 手動で注釈付きテストセットを導入する。 0.65
It contains 1,431 document and single-sentence summary pairs generated by various neural abstractive summarization models trained on CNN/DailyMail corpus.6 CNN/DailyMail corpus.6でトレーニングされた様々な抽象的な要約モデルによって生成される1,431のドキュメントと単一文の要約ペアを含んでいる。 0.48
Ranksum Falke et al (2019) formulate the factual consistency problem in summarization as a ranking task. Ranksum Falke et al (2019) は、要約における事実整合性問題をランキングタスクとして定式化する。 0.69
They introduce a dataset consisting of 107 documents, each paired with a set of five ranked summary candidates obtained from the beam search of a summarization model. 彼らは107の文書からなるデータセットを導入し、それぞれが要約モデルのビーム探索から得られた5つのランキングされた要約候補の組と対になる。 0.69
Given the manually annotated consistency label on summary candidates, the task is to re-rank the list such that the top-1 summary is factually consistent. 要約候補に手動でアノテートされた一貫性ラベルがある場合、タスクはリストを再ランクして、上位1のサマリーが事実上一貫性を持つようにする。 0.58
Summeval Fabbri et al (2021) introduce a comprehensive benchmark for factual consistency detection in summarization. Summeval Fabbri et al (2021) は、要約における事実整合性検出のための包括的なベンチマークを導入した。 0.59
It includes summaries generated by seven extractive models and sixteen abstractive models, which are judged by three annotators using a 5-point Likert scale.7 7つの抽出モデルと16の抽象モデルによって生成された要約を含み、3つの注釈によって5点のlikertスケールで判断される。 0.54
QAGS The dataset collected by Wang et al (2020) consists of 239 test set instances from XSUM (Narayan et al , 2018) and 714 instances from CNN/DailyMail.8 QAGS Wang et al (2020)が収集したデータセットは、XSUM(Narayan et al , 2018)の239のテストセットインスタンスと、CNN/DailyMailの714インスタンスで構成されている。 0.71
Each instance consists of a pair of a source document and a single-sentence summary, which is labeled via majority voting on three annotators’ labels. 各インスタンスは1対のソースドキュメントと1文の要約で構成されており、3つのアノテータのラベルに多数投票することでラベル付けされる。 0.68
5 Results and Discussion 5.1 Main Results Performance on FactCC, QAGS, and SummEval is measured using balanced accuracy, which is suitable for class imbalanced settings, since the factually consistent label is the majority in some benchmark datasets. 結果と議論 5.1 factcc、qags、summevalにおける主な結果性能は、いくつかのベンチマークデータセットで事実に一貫性のあるラベルが多数を占めるため、クラス不均衡設定に適したバランスの精度を用いて測定される。 0.70
It is defined as the average recall of the two classes, such that majority label voting obtains only a 50% score. 2つのクラスの平均リコールとして定義されており、過半数のラベル投票は50%のスコアしか獲得できない。 0.66
To measure ranking performance in Ranksum, we calculate the average Precision@1, which computes the fraction of times a factually consistent summary is ranked highest on each test instance. Ranksumのランク付け性能を測定するために、各テストインスタンスにおいて、現実的に一貫した要約の回数を計算した平均Precision@1を計算する。 0.75
We perform five training runs for each setup using different random seeds and take the mean to address performance instability (Reimers and Gurevych, 2017). 異なるランダムな種を使って各セットアップで5つのトレーニングを実行し、パフォーマンスの不安定さに対処する手段を取ります(reimers and gurevych, 2017)。 0.68
6We merge the test and validation sets into a single test set. 6 テストと検証セットを1つのテストセットにマージします。 0.76
7We aggregate the label as “consistent” if all annotators 7 アノテータはすべて「一貫性」としてラベルを集約する。 0.56
rated the summary as a 5 and “inconsistent” otherwise. 要約を5と“一貫性のない”と評価した。 0.68
8This is the number of instances after we split multisentence summaries into separate single-sentence summary test instances, where an individual factuality judgement is available. 8 マルチセンテンスサマリーを別々のシングルセンテンスサマリーテストインスタンスに分割した後のインスタンス数で、個々の事実性判定が利用可能です。 0.67
英語(論文から抽出)日本語訳スコア
Dataset Augmentation Majority voting MNLI-128 [split-doc] MNLI-128 MNLI-512 MNLI-512 MNLI-512 MNLI-512 MNLI-512 データセット拡張 MNLI-128 MNLI-512 MNLI-512 MNLI-512 MNLI-512 MNLI-512 MNLI-512 0.47
ANLI DocNLI FactCC Falsesum (ours) ANLI DocNLI FactCC Falsesum (urs) 0.41
Benchmark Datasets ベンチマークデータセット 0.51
FactCC Ranksum QAGS 50.00 50.00 59.72 57.39 72.07 71.08 52.73 57.93 53.54 53.91 57.10 58.13 73.50 73.87 83.52 75.05 FactCC Ranksum QAGS 50.00 50.00 59.72 57.39 72.07 71.08 52.73 57.93 53.54 53.91 57.10 58.13 73.50 73.87 83.52 75.05 0.23
50.46 57.01 68.03 51.40 55.76 53.58 67.29 72.90 50.46 57.01 68.03 51.40 55.76 53.58 67.29 72.90 0.21
SummEval Overall 50.11 57.06 66.63 51.43 53.19 55.35 69.02 74.17 SummEval overall 50.11 57.06 66.63 51.43 53.19 55.35 69.02 74.17 0.24
50.00 54.11 55.32 48.75 49.56 52.59 60.04 65.18 50.00 54.11 55.32 48.75 49.56 52.59 60.04 65.18 0.21
Table 2: Performance of MNLI models with different augmentation data across benchmarks to classify the factual consistency of summaries. 表2:サマリーの事実整合性を分類するために、ベンチマーク間で異なる拡張データを持つmnliモデルの性能。 0.68
MNLI-128 and MNLI-512 are RoBERTa-base models trained using maximum token length of 128 and 512, respectively. MNLI-128とMNLI-512はそれぞれ最大トークン長128と512で訓練されたRoBERTaベースモデルである。
訳抜け防止モード: MNLI-128とMNLI-512はRoBERTa-ベースモデルである 最大トークン長は128と512です
0.81
Training Dataset MNLI+Falsesum MNLI+Falsesum -Contrastive MNLI+Falsesum -Extrinsic MNLI+Falsesum -Intrinsic トレーニングデータセットMNLI+Falsesum -Contrastive MNLI+Falsesum -Extrinsic MNLI+Falsesum-intrinsic 0.60
Overall 74.17 73.11 71.95 69.14 総合74.17 73.11 71.95 69.14 0.42
∆ -1.06 -2.22 -5.03 ∆ -1.06 -2.22 -5.03 0.30
Table 3: Model performance when trained on ablated Falsesum dataset. 表3: ablated falsesumデータセットでトレーニングされた時のモデルパフォーマンス。 0.70
Excluding the contrastive, extrinsic, and intrinsic examples results in lower overall performance, indicating each property is beneficial. 対照的な、外在的な、内在的な例を除くと、全体のパフォーマンスは低くなり、それぞれの特性が有益であることを示す。 0.54
From the results in Table 2, we observe the following: (1) Models trained on sentence-level MNLI datasets perform poorly when evaluated directly on document-level benchmarks, even after we increase the maximum input token length from 128 to 512;9 (2) This limitation can be alleviated by the sentence-wise prediction strategy ([split-doc]MNLI-128),10 which achieves 66.63. 1) 文レベルのmnliデータセットでトレーニングされたモデルは、文書レベルのベンチマークで直接評価した場合、最大入力トークン長を128から512;9に増やした後でもパフォーマンスが悪く、(2) この制限は、66.63を達成する文単位予測戦略([split-doc]mnli-128)10によって緩和される。 0.71
Note, however, that this improvement comes at the expense of compute cost which is multiplied by a significant factor; (3) DocNLI and ANLI perform poorly even though they contain longer premise sentences, indicating that the length mismatch may not be the primary issue; (4) Falsesum obtains substantial improvement over the previous state-of-the-art FactCC, despite being derived from the same summarization dataset (CNN/DailyMail). しかし、この改善は、重要な要因に乗じて計算コストを犠牲にすること、 (3) DocNLI と ANLI は、長い前提文を含むにもかかわらず、不十分な性能を示し、長さミスマッチが主問題ではないこと、(4) Falsesum は、同じ要約データセット(CNN/DailyMail)から派生したにもかかわらず、以前の最先端の FactCC よりも大幅に改善されていることに注意されたい。 0.62
This indicates that Falsesum provides higher quality examples and includes more types of entailment phenomena that occur naturally in this task. このことは、Falsesumがより高い品質の例を提供し、このタスクで自然に起こる多くのエンターテイメント現象を含んでいることを示している。 0.53
5.2 Ablation Analysis on Falsesum Data We perform an ablation analysis to study how each component of our data generation pipeline 5.2 ファスサムデータのアブレーション解析 : アブレーション解析を行い,データ生成パイプラインの各成分について検討する。 0.76
9Average context word count is only 22 in MNLI and 546 9 平均文脈語数は MNLI では 22 で 546 である 0.78
in FactCC. 10See details in Appendix B 実際cc。 10 appendix b の詳細 0.65
contributes to the final performance. 最終的なパフォーマンスに貢献します 0.76
We first remove the contrastive property of the Falsesum data by randomly including only either the positive (D, S+, Y = 1) or negative (D, S−, Y = 0) NLI examples obtained from a single (D, S+) pair. まず, 正 (D, S+, Y = 1) あるいは負 (D, S−, Y = 0) の NLI の例を 1 つの (D, S+) 対からランダムに含むことにより, Falsesum データの対比特性を除去する。 0.86
Next, we filter out the negative NLI instances that are generated using either intrinsic or extrinsic code. 次に、固有コードまたは外部コードを用いて生成される負のNLIインスタンスをフィルタリングする。 0.74
We refer to the three ablated datasets as −contrastive, −intrinsic and −extrinsic, respectively. これら3つの短縮データセットを,それぞれ-contrastive,-intrin sic,-extrinsicと呼ぶ。 0.71
We set the sampled training size to 100,000 for the three ablation setups and aggregate the results from five training runs. 3つのアブレーション設定のサンプルトレーニングサイズを10万に設定し,5つのトレーニング実行の結果を集計した。 0.71
Table 3 shows the performance of the ablated models. 表3は、短縮されたモデルのパフォーマンスを示しています。 0.55
We observe that removing contrastive pairs in the augmented training data results in a 1.06% drop on the overall benchmarks score. 強化トレーニングデータからコントラストペアを除去すると、ベンチマークスコアが1.06%低下するのを観察する。 0.60
We also see that removing intrinsic error examples results in the highest performance loss, −5.03% compared to −2.22% by −extrinsic. また、本質的なエラー例の除去は、-exrinsicによる-2.22%と比較して、-5.03%高いパフォーマンス損失をもたらす。 0.51
This is explained by the fact that intrinsic consistency errors are more dominant on benchmarks that are built on the CNN/DailyMail corpus (Goyal and Durrett, 2021). これは、CNN/DailyMailコーパス(Goyal and Durrett, 2021)上に構築されたベンチマークにおいて、固有の一貫性エラーがより支配的であるという事実によって説明される。
訳抜け防止モード: これは、固有の一貫性エラーがベンチマークでより支配的であるという事実によって説明される。 CNN / DailyMail corpus (Goyal と Durrett, 2021 ) 上に構築されている。
0.56
We conclude that all the above properties are important for the overall improvements obtained by Falsesum. 以上の性質は Falsesum による全体的な改善に重要であると結論づける。 0.73
5.3 Fine-grained Evaluation Previous work has shown that NLI models are prone to relying on fallible heuristics which associate lexical overlap with entailment labels (McCoy et al , 2019). 5.3 きめ細かい評価 従来の研究は、NLIモデルは、語彙的重なりと包含ラベル(McCoy et al , 2019)を関連づける、誤帰的ヒューリスティックに依存する傾向にあることを示した。 0.56
In the factual consistency task, this corresponds to models associating highly extractive summaries with the “consistent” label. 事実整合性タスクでは、これは“一貫性”ラベルと高度に抽出された要約を関連付けるモデルに対応する。 0.64
This raises a question about whether Falsesum data alleviates this tendency in the resulting NLI models. このことは、Falsesumデータが結果のNLIモデルにおけるこの傾向を緩和するかどうかという疑問を引き起こす。 0.64
To answer this question, we partition the FactCC annotated test examples into five ordered subsets based on the lexical overlap between their この質問に答えるために、我々はFactCCアノテーション付きテスト例を5つの順序部分集合に分割する。 0.66
英語(論文から抽出)日本語訳スコア
Code Intrinsic Extrinsic コード固有のextrinsic 0.79
Label (cid:88) Type (cid:88) Span (cid:88) 86% 81% Label (cid:88) Type (cid:88) Span (cid:88) 86% 81% 0.43
94% 65% 94% 95% 94% 65% 94% 95% 0.43
Figure 3: Comparison between NLI models augmented with Falsesum and FactCC across different measures of summary extractiveness. 図3: Falsesum と FactCC を併用した NLI モデルの比較。 0.49
The x-axis shows the median overlap score of each test subset. x軸は各テストサブセットのオーバーラップスコアの中央値を示す。 0.77
summary hypothesis and the source document premise. 概要仮説とソースドキュメントの前提。 0.65
We define an overlap score using the normalized coverage and density summary extractiveness scores introduced by Grusky et al (2018). Grusky et al (2018) が導入した正規化カバレッジと密度要約抽出度スコアを用いて重なり合いスコアを定義する。 0.66
Both measures have the range [0.0, 1.0], where density = 1.0 indicates that all words in a summary are also present in the source document and normalized coverage = 1.0 indicates that the summary is obtained by copying a continuous fragment of the source document. どちらの指標も [0.0, 1.0] の範囲を持ち、密度 = 1.0 は、サマリ中のすべての単語がソースドキュメントにも存在することを示し、正規化カバレッジ = 1.0 は、サマリがソースドキュメントの連続した断片をコピーすることによって得られることを示している。 0.61
We then define overlap = normalized coverage × density. 次にオーバーラップ = 正規化被覆 × 密度を定義する。 0.75
Figure 3 shows the comparison of FactCC and Falsesum augmentation performance across varying lexical overlap scores. 図3は、様々な語彙オーバーラップスコアに対するFactCCとFalsesumの強化性能の比較を示す。 0.70
We see that Falsesum performs better on all subsets of the FactCC test set with the greatest performance gap appearing on the 0.9 overlap subset. FalsesumはFactCCテストセットのすべてのサブセットで、0.9オーバーラップサブセットで最大のパフォーマンスギャップが現れる。 0.59
Upon closer inspection, we see that the FactCC model makes mostly false positive classification errors on this subset, i.e., it tends to predict highly extractive summaries as “consistent”, leading to near majority voting performance of 50%. 精査すると、factccモデルは、このサブセットで主に偽陽性の分類エラー(すなわち、高度に抽出された要約を“一貫性”として予測する傾向があり、投票率は50%近くになる。 0.68
Falsesum, on the other hand, better discriminates the factual consistency of examples without over-relying on lexical overlap. 一方、falsesumは語彙の重複を過大評価することなく、例の事実的一貫性を判別する。 0.70
5.4 Data Quality Analysis We conduct both manual and automatic quality evaluation of the Falsesum-generated dataset. 5.4 データ品質分析 Falsesum生成データセットのマニュアルおよび自動品質評価を行う。 0.80
First, we sample 200 generated negative examples and manually verify whether まず、200個の負のサンプルをサンプリングし、手動で検証する。 0.63
(i) the perturbed summary S− is indeed factually inconsistent; i) 摂動要約 S− は実際には矛盾している。 0.67
(ii) the type of consistency error follows the specified control code; (ii) 一貫性エラーのタイプは、特定制御コードに従う。 0.75
(iii) the incorrect “fact” is inserted at the specified missing span. (iii)不正確な「事実」を特定欠落スパンに挿入する。 0.66
Following Kryscinski クリシンスキーに続き 0.53
Table 4: Manual verification of Falsesum-generated NLI examples. 表4: Falsesum生成NLI例のマニュアル検証。 0.76
Label, type, and span indicate the percentage of generated summaries with correct inconsistency label, error type, and error span, respectively. ラベル、型、およびスパンは、それぞれ正しい矛盾ラベル、エラータイプ、エラースパンを持つ生成された要約の割合を示す。 0.62
Majority voting CBOW-GloVe BiLSTM-GloVe RoBERTA-base CBOW-GloVe BiLSTM-GloVe RoBERTA-base 0.28
FactCC DocNLI 50.84 60.36 68.26 82.15 FactCC DocNLI 50.84 60.36 68.26 82.15 0.27
53.55 70.38 73.04 78.46 53.55 70.38 73.04 78.46 0.23
Falsesum 50.00 56.13 57.62 69.38 偽装 50.00 56.13 57.62 69.38 0.37
Table 5: Hypothesis-only model performance (accuracy) to measure the presence of artifacts and naturalness of Falsesum dataset (lower is better). 表5: Falsesumデータセットの人工物の存在と自然性を測定するための仮説のみのモデルパフォーマンス(精度)。 0.76
et al (2020), the authors perform this annotation to avoid high disagreement by crowd annotators in this task (Falke et al , 2019). 著者らは,この作業において,群衆アノテータによる高い不一致を避けるために,このアノテーションを実行する(Falke et al , 2019)。 0.63
The results in Table 4 show that about 86% of intrinsic 81% of extrinsic generated error examples are factually inconsistent, which happen due to several reasons, e g , generator model chooses a span from the list that is similar to the original span, or generator model correctly guesses the original missing span. 表4の結果は、外在的エラーの81%の内在的エラーは、いくつかの理由により実際に矛盾しており、例えば、ジェネレータモデルは、元のスパンに類似したリストからスパンを選択するか、ジェネレータモデルが元のスパンを正確に推測する。 0.64
This further suggests that pre-trained language models such as RoBERTa-base can be robust against the induced label noise and can still learn a performant classifier. このことは、RoBERTa-baseのような事前訓練された言語モデルは、誘導されたラベルノイズに対して堅牢であり、なおも性能分類器を学習可能であることを示唆している。 0.51
While G almost always inserts the incorrect “fact” at the specified positions, we observe that it often fails to follow the specified extrinsic code correctly. G は、ほとんどの場合、指定された位置に誤った “fact” を挿入するが、それはしばしば、指定された外部コードに正しく従わない。 0.71
We suspect that this is because the model prefers the easier task of copying the input over generating novel phrases.11 これは、このモデルが新しいフレーズを生成するよりも、入力をコピーするより簡単なタスクを好むためと思われる。
訳抜け防止モード: これは このモデルは、新しいフレーズを生成するよりも、入力をコピーするより簡単なタスクを好む
0.68
Following Gururangan et al (2018), we also evaluate the naturalness of the generated dataset. gururangan et al (2018) に続いて、生成されたデータセットの自然性も評価する。 0.67
We train an NLI model using positive examples from CNN/DailyMail and Falsesum-generated negative examples. CNN/DailyMail の正例と Falsesum 生成の負例を用いて NLI モデルを訓練する。 0.73
The model receives no premise so must distinguish between entailed and non-entailed hypotheses using semantic plausibility or spurious surface features, e g , grammatical mistakes or fluency errors. このモデルには前提がないため、意味的妥当性や素早い表面的特徴(文法的誤りや流布誤りなど)を用いて、関連する仮説と非詳細仮説を区別しなければならない。 0.55
The relatively low accuracy of these models on Falsesum data (shown in Table 5) suggests that, compared to FactCC and DocNLI, Falsesum-generated summaries are relatively hard to distinguish from the gold ones. これらのモデルがfalsesumデータ上で比較的低い精度(表5に示す)は、factccやdocnliと比較して、falsesumの生成したサマリーは金のサマリーと区別することが比較的難しいことを示唆している。 0.66
11We include more examples of generated NLI instances as 11 生成したNLIインスタンスの例を以下に示す。 0.65
well as the inadvertently consistent output in Appendix D. Appendix D の意図しない一貫性のない出力と同じです。 0.62
0.120.310.510.710.90 Overlap Scores0.500.550.600. 650.700.750.80Balanc ed AccuracyFactCCFalses um 0.120.310.510.710.90 Overlapスコア0.500.550.600.650.70 0.750.80Balanced AccuracyFactCCFalses um 0.07
英語(論文から抽出)日本語訳スコア
Conclusion NLI models present a promising solution for automatic assessment of factual consistency in summarization. 結論 NLI モデルは要約における事実整合性の自動評価のための有望な解である。 0.69
However, the application of existing models for this task is hindered by several challenges, such as the mismatch of characteristics between their training dataset and the target task data. しかし、このタスクに対する既存のモデルの適用は、トレーニングデータセットと対象タスクデータとの間の特性のミスマッチなど、いくつかの課題によって妨げられている。 0.73
This mismatch includes the difference in terms of the input granularity (sentence vs. document level premises) and the types of (non-)entailment phenomena that must be recognized. このミスマッチには、入力された粒度(文書レベルの前提との類似性)と、認識しなければならない(非)補足現象のタイプの違いが含まれている。 0.71
In this work, we present Falsesum, a data generation pipeline which renders large-scale documentlevel NLI datasets without manual annotation. 本稿では,手動アノテーションなしで大規模文書レベルのnliデータセットを描画するデータ生成パイプラインであるfalsesumを提案する。 0.75
Using our training strategy, we demonstrate that it is possible to learn to generate diverse and naturalistic factually inconsistent (non-entailed) summaries using only existing (entailed) consistent summaries for training. トレーニング戦略を用いて,既存の(詳細)一貫した要約のみを用いて,多様で自然主義的な事実整合性(非詳細)の要約を生成できることを実証した。 0.74
We show that the resultant data is effective for augmenting NLI datasets to improve the state-of-the-art performance across four summary factual inconsistency benchmarks. 結果から,NLIデータセットを拡張して,4つの要約的事実整合性ベンチマークにおける最先端性能を向上させることが示唆された。 0.56
Acknowledgments We would like to thank Marco Ponza, Marco Fiscato, Umut Topkara and other colleagues from Bloomberg AI for the thoughtful discussion and feedback throughout this project. 承認 Marco Ponza氏、Marco Fiscato氏、Umut Topkara氏、およびBloomberg AIの他の同僚たちに、このプロジェクト全体を通して思慮深い議論とフィードバックを感謝したい。 0.67
We also thank Leonardo Ribeiro for comments on the earlier version of this work and the anonymous reviewers for their constructive feedback. また、Leonardo Ribeiro氏によるこの作業の初期バージョンに関するコメントと、彼らの建設的なフィードバックに対して匿名のレビュアーに感謝します。 0.55
The authors affiliated with UKP were supported by the German Research Foundation through the research training group “Adaptive Preparation of Information from Heterogeneous Sources” (AIPHES, GRK 1994/1) and by the German Federal Ministry of Education and Research and the Hessian State Ministry for Higher Education, Research and the Arts within their joint support of the National Research Center for Applied Cybersecurity ATHENE. UKPに加盟する著者は、ドイツ研究財団の「異種源からの情報の適応的準備」(AIPHES, GRK 1994/1)と、ドイツ連邦教育省とドイツ連邦教育・研究高等研究芸術省の協力により、応用サイバーセキュリティ研究センターの共同支援を受けた。
訳抜け防止モード: UKPに加盟する著者は、ドイツ研究財団が「異種源からの情報の適応的準備」(AIPHES, GRK 1994/1)を通じて支援した。 そして、ドイツ連邦教育研究省とヘッセン高等教育研究芸術省が、応用サイバーセキュリティ研究センター(National Research Center for Applied Cybersecurity ATHENE)の協力を得て支援している。
0.78
References Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. 参照: Samuel R. Bowman、Gabor Angeli、Christopher Potts、Christopher D. Manning。 0.78
2015. A large annotated corpus for learning natural language inference. 2015. 自然言語推論を学ぶための大きな注釈付きコーパス。 0.58
In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 632–642, Lisbon, Portugal. 2015年の自然言語処理における経験的手法に関する会議では、ポルトガルのリスボンにある632-642ページが取り上げられた。
訳抜け防止モード: 自然言語処理における経験的手法に関する2015年会議のまとめ 632-642頁、リスボン、ポルトガル。
0.76
Association for Computational Linguistics. Ziqiang Cao, Furu Wei, Wenjie Li, and Sujian Li. 計算言語学会会員。 ジキアン・カオ、ウー・ウェイ、ウェンジー・リー、スージアン・リー。 0.44
2018. Faithful to the original: Fact aware neural abstrac- 2018. 原著:Fact aware Neural abstrac- 0.48
In Proceedings of the Thirtytive summarization. 三十三回要約の手続きで 0.44
Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pages 4784–4791. 第2回AIAI人工知能に関する会議(AAAI-18)、第30回AIAI-18(AIAI-18)、第8回AIAI人工知能教育進歩シンポジウム(EAAI-18)、ルイジアナ州ニューオーリンズ、2018年2月2日-7日、ページ4784-4791。 0.73
AAAI Press. aaai press所属。 0.47
Cleo Condoravdi, Dick Crouch, Valeria de Paiva, Reinhard Stolle, and Daniel G. Bobrow. Cleo Condoravdi, Dick Crouch, Valeria de Paiva, Reinhard Stolle, Daniel G. Bobrow 0.38
2003. Entailment, intensionality and text understanding. 2003. 包含、拡張性、およびテキスト理解。 0.58
In Proceedings of the HLT-NAACL 2003 Workshop on Text Meaning, pages 38–45. The Proceedings of the HLT-NAACL 2003 Workshop on Text Meaning, page 38–45。 0.43
Ido Dagan, Oren Glickman, and Bernardo Magnini. Ido Dagan、Oren Glickman、Bernardo Magnini。 0.66
2006. The pascal recognising textual entailment challenge. 2006. pascal recogning textual entailment challenge の略。 0.58
In Machine Learning Challenges. Evaluating Predictive Uncertainty, Visual Object Classification, and Recognising Tectual Entailment, pages 177–190, Berlin, Heidelberg. 機械学習の課題です 予測的不確実性の評価、視覚的対象分類、およびテククチュアル・エンターメントの認識、ページ177-190、ベルリン、ハイデルベルク。 0.64
Springer Berlin Heidelberg. ベルリン・ハイデルベルク出身。 0.62
Dorottya Demszky, Kelvin Guu, and Percy Liang. Dorottya Demszky、Kelvin Guu、Percy Liang。 0.31
2018. Transforming question answering datasets into natural language inference datasets. 2018. 質問応答データセットを自然言語推論データセットに変換する。 0.57
CoRR, abs/1809.02922. corr、abs/1809.02922。 0.39
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2019. BERT: Pre-training of deep bidirectional transformers for language underIn Proceedings of the 2019 Conference standing. 2019. BERT: 2019年開催のProceedings of the 2019 Conferenceにおいて、言語の下での双方向トランスフォーマーの事前トレーニング。 0.50
of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota.
訳抜け防止モード: 計算言語学会北米支部の紹介 : 人間言語技術 第1巻(長編・短編)、4171-4186頁、ミネソタ州ミネアポリス。
0.56
Association for Computational Linguistics. Esin Durmus, He He, and Mona Diab. 計算言語学会会員。 Esin Durmus, He He, and Mona Diab 0.43
2020. FEQA: A question answering evaluation framework for faithfulness assessment in abstractive summarization. 2020. FEQA:抽象要約における忠実度評価のための質問応答評価フレームワーク。 0.60
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 5055– 5070, Online. 第58回計算言語学会年次総会の議事録では、5055-5070ページがオンラインで公開されている。
訳抜け防止モード: 第58回計算言語学会年次大会を終えて 5055年 - 5070年、オンライン化。
0.62
Association for Computational Linguistics. Matan Eyal, Tal Baumel, and Michael Elhadad. 計算言語学会会員。 Matan Eyal、Tal Baumel、Michael Elhadad。 0.42
2019. Question answering as an automatic evaluation metIn Proceedric for news article summarization. 2019. ニュース記事要約のためのプロセドリックによる質問応答の自動評価 0.56
ings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 3938–3948, Minneapolis, Minnesota. ings of the 2019 conference of the north american chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers), pages 3938–3948, minneapolis, minnesota (英語)
訳抜け防止モード: 計算言語学会北米支部2019年大会報告 : ヒューマン・ランゲージ・テクノロジー 第1巻(ロング・アンド・ショート・ペーパーズ)3938-3948頁、ミネソタ州ミネアポリス。
0.50
Association for Computational Linguistics. Alexander R. Fabbri, Wojciech Kry´sci´nski, Bryan McCann, Caiming Xiong, Richard Socher, and Dragomir Radev. 計算言語学会会員。 Alexander R. Fabbri, Wojciech Kry ́sci ́nski, Bryan McCann, Caiming Xiong, Richard Socher, Dragomir Radev 0.49
2021. SummEval: Re-evaluating Summarization Evaluation. 2021. SummEval: 要約評価の再評価。 0.56
Transactions of the Association for Computational Linguistics, 9:391–409. 計算言語学会のトランザクション、9:391–409。 0.67
Anthony Fader, Stephen Soderland, and Oren Etzioni. アンソニー・フェイダー、スティーブン・ソーダーランド、オーレン・エツィオニ。 0.57
2011. Identifying relations for open information extraction. 2011. オープン情報抽出のための関係同定 0.61
In Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, 自然言語処理における実証的手法に関する2011年会議のまとめ 0.83
英語(論文から抽出)日本語訳スコア
pages 1535–1545, Edinburgh, Scotland, UK. 1535–1545頁、エディンバラ、スコットランド、イギリス。 0.78
Association for Computational Linguistics. Tobias Falke, Leonardo F. R. Ribeiro, Prasetya Ajie Utama, Ido Dagan, and Iryna Gurevych. 計算言語学会会員。 Tobias Falke, Leonardo F. R. Ribeiro, Prasetya Ajie Utama, Ido Dagan, Iryna Gurevych 0.46
2019. Ranking generated summaries by correctness: An interesting but challenging application for natural language inference. 2019. ランキングは正確性によって要約を生成する:自然言語推論の興味深いが挑戦的な応用である。 0.52
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 2214–2220, Florence, Italy. 第57回計算言語学会年次総会では、イタリアのフィレンツェで2214-2220頁が開催された。 0.64
Association for Computational Linguistics. Ben Goodrich, Vinay Rao, Peter J. Liu, and Mohammad Saleh. 計算言語学会会員。 Ben Goodrich、Vinay Rao、Peter J. Liu、Mohammad Saleh。 0.45
2019. Assessing the factual accuracy of generated text. 2019. 生成されたテキストの事実的正確性を評価する。 0.51
In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD ’19, page 166–175, New York, NY, USA. The 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD ’19, page 166–175, New York, NY, USA
訳抜け防止モード: 第25回ACM SIGKDD国際知識発見・データマイニング会議に参加して KDD ’19 page 166–175, New York, NY, USA.
0.80
Association for Computing Machinery. アソシエーション・フォー・コンピューティング・マシンズ(Association for Computing Machinery)の略。 0.36
Tanya Goyal and Greg Durrett. タニヤ・ゴヤルとグレッグ・ダレット。 0.40
2021. Annotating and modeling fine-grained factuality in summarization. 2021. 要約における細かな事実の注釈とモデリング。 0.52
In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1449–1462, Online. the association for computational linguistics: human language technologies, pages 1449–1462, online. 北米計算言語学会の2021年会議の議事録。 0.77
Association for Computational Linguistics. Max Grusky, Mor Naaman, and Yoav Artzi. 計算言語学会会員。 マックス・グラスキー、モル・ナーマン、ヨアヴ・アルツィ。 0.52
2018. Newsroom: A dataset of 1.3 million summaries with diverse extractive strategies. 2018. newsroom: さまざまな抽出戦略を備えた130万のサマリーのデータセット。 0.54
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 708–719, New Orleans, Louisiana. 2018年北米計算言語学会(英語版)の会議(英語版)において、人間言語技術(英語版)、第1巻(長文)、708-719頁(ルイジアナ州ニューオーリンズ)。 0.67
Association for Computational Linguistics. Suchin Gururangan, Swabha Swayamdipta, Omer Levy, Roy Schwartz, Samuel Bowman, and Noah A. Smith. 計算言語学会会員。 例えば、gururangan、swabha swayamdipta、omer levy、roy schwartz、samuel bowman、noah a. smithである。 0.58
2018. Annotation artifacts in natural lanIn Proceedings of the 2018 guage inference data. 2018. 2018年のguage推論データのNature lanIn Proceedingsのアノテーションアーティファクト。 0.51
Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 107–112, New Orleans, Louisiana. the association for computational linguistics: human language technologies, volume 2 (short papers), pages 107-112 (ルイジアナ州ニューオーリンズ)。
訳抜け防止モード: 計算言語学会北米支部会議 : ヒューマン・ランゲージ・テクノロジー Volume 2 (Short Papers ), page 107–112, New Orleans, Louisiana.
0.63
Association for Computational Linguistics. Karl Moritz Hermann, Tomás Kociský, Edward Grefenstette, Lasse Espeholt, Will Kay, Mustafa Suleyman, and Phil Blunsom. 計算言語学会会員。 カール・モーリッツ・ヘルマン、トマース・コシスキー、エドワード・グレフェンテ、ラセ・エスペホルト、ウィル・ケイ、ムスタファ・スレイマン、フィル・ブランサム。 0.54
2015. Teaching machines to read and comprehend. 2015. 機械に読み書きを教える。 0.48
In Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015, December 7-12, 2015, Montreal, Quebec, Canada, pages 1693–1701. In Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015年12月7日-12日, 2015年モントリオール, ケベック, カナダ, 1693–1701頁。 0.90
Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong, and Richard Socher. Nitish Shirish Keskar、Bryan McCann、Lav R. Varshney、Caiming Xiong、Richard Socher。 0.38
2019. CTRL: A conditional transformer language model for controllable generation. 2019. CTRL: 制御可能な生成のための条件変換言語モデル。 0.60
CoRR, abs/1909.05858. corr、abs/1909.05858。 0.41
Tushar Khot, Ashish Sabharwal, and Peter Clark. タシャール・ホート、アッシュッシュ・サバーワル、ピーター・クラーク。 0.37
2018. Scitail: A textual entailment dataset from science In Proceedings of the Thirtyquestion answering. 2018. scitail: thirtyquestion answeringの手順における科学からのテキストによる補足データセット。 0.60
Second AAAI Conference on Artificial Intelligence, 人工知能に関する第2回AAAI会議 0.69
(AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pages 5189–5197. (AAAI-18)、第30回AIAI-18、第8回AIAIS on Educational Advances in Artificial Intelligence (EAAI-18)、ルイジアナ州ニューオーリンズ、2018年2月2日-7日、ページ5189-5197。 0.73
AAAI Press. aaai press所属。 0.47
Wojciech Kryscinski, Nitish Shirish Keskar, Bryan McCann, Caiming Xiong, and Richard Socher. Wojciech Kryscinski、Nitish Shirish Keskar、Bryan McCann、Caiming Xiong、Richard Socher。 0.35
2019. Neural text summarization: A critical evaluation. 2019. neural text summarization: 批判的な評価。 0.58
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 540– 551, Hong Kong, China. 第9回自然言語処理国際共同会議(emnlp-ijcnlp)第540-551ページ、香港、中国。
訳抜け防止モード: 自然言語処理における経験的手法に関する2019年会議のまとめ 第9回国際自然言語処理国際会議(EMNLP - IJCNLP)に参加して 540年 - 551年、香港、中国。
0.79
Association for Computational Linguistics. Wojciech Kryscinski, Bryan McCann, Caiming Xiong, and Richard Socher. 計算言語学会会員。 Wojciech Kryscinski、Bryan McCann、Caiming Xiong、Richard Socher。 0.43
2020. Evaluating the factual consistency of abstractive text summarization. 2020. 抽象テキスト要約の事実整合性の評価 0.56
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 9332–9346, Online. 自然言語処理における経験的手法に関する2020年会議(emnlp)の議事録では、9332-9346ページがオンラインで公開されている。
訳抜け防止モード: 自然言語処理における経験的手法に関する2020年会議(EMNLP)の開催報告 9332-9346頁。
0.68
Association for Computational Linguistics. Philippe Laban, Tobias Schnabel, Paul N. Bennett, and Marti A. Hearst. 計算言語学会会員。 フィリップ・ラバン、トビアス・シュナーベル、ポール・ベネット、マーティ・a・ハースト。 0.53
2022. SummaC: Re-Visiting NLIbased Models for Inconsistency Detection in SumTransactions of the Association for marization. 2022. SummaC: マリゼーション協会のSumTransactionsにおける非一貫性検出のためのNLIベースのモデルの再視覚化。 0.53
Computational Linguistics, 10:163–177. 計算言語学、10:163–177。 0.47
Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, Luke Zettlemoyer。 0.39
2019. BART: denoising sequence-to-sequence pretraining for natural language generation, translation, and comprehension. 2019. BART: 自然言語の生成、翻訳、理解のためのシーケンス・ツー・シーケンスの事前学習。 0.50
CoRR, abs/1910.13461. corr、abs/1910.13461。 0.41
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。
訳抜け防止モード: yinhan liu, myle ott, naman goyal, jingfei du, マンダー・ジョシ、ダンチー・チェン、オマー・レヴィ、マイク・ルイス ルーク・ゼトルモイヤー(luke zettlemoyer)とヴェセリン・ストヤノフ(veslin stoyanov)。
0.61
2019. Roberta: A robustly optimized BERT pretraining approach. 2019. Roberta: 堅牢に最適化されたBERT事前トレーニングアプローチです。 0.51
CoRR, abs/1907.11692. CoRR、abs/1907.11692。 0.54
Joshua Maynez, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. Joshua Maynez、Shashi Narayan、Bernd Bohnet、Ryan McDonald。 0.33
2020. On faithfulness and factuality in abstractive summarization. 2020. 抽象要約における忠実性と事実性について 0.49
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1906–1919, Online. 第58回計算言語学会年次総会の議事録(1906-1919年、オンライン)。 0.61
Association for Computational Linguistics. Tom McCoy, Ellie Pavlick, and Tal Linzen. 計算言語学会会員。 トム・マッコイ、エリー・パヴリック、タル・リンゼン。 0.50
2019. Right for the wrong reasons: Diagnosing syntactic heuristics in natural language inference. 2019. 間違った理由:自然言語推論における構文的ヒューリスティックの診断。 0.60
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3428–3448, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 3428–3448, イタリア・フィレンツェ。 0.72
Association for Computational Linguistics. Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler, and Tal Linzen. 計算言語学会会員。 ユンヒョン・ミン、r・トーマス・マッコイ、ディパンジャン・ダス、エミリー・ピットラー、タル・リンゼン。 0.52
2020. Syntactic data augmentation increases robustness to inference heuristics. 2020. 構文データ拡張は推論ヒューリスティックにロバスト性を高める。 0.48
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 2339–2352, Online. 第58回計算言語学会年次総会の議事録2339-2352ページオンライン。 0.57
Association for Computational Linguistics. 計算言語学会会員。 0.52
英語(論文から抽出)日本語訳スコア
the 58th Annual Meeting of the Association for Computational Linguistics, pages 5008–5020, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 5008–5020, Online. 0.47
Association for Computational Linguistics. Aaron Steven White, Drew Reisinger, Keisuke Sakaguchi, Tim Vieira, Sheng Zhang, Rachel Rudinger, Kyle Rawlins, and Benjamin Van Durme. 計算言語学会会員。 アーロン・スティーブン・ホワイト、ドリュー・ライジンジャー、坂口啓介、ティム・ヴィエイラ、シェン・チャン、レイチェル・ラディンジャー、カイル・ローリンズ、ベンジャミン・ヴァン・ダーム。
訳抜け防止モード: 計算言語学会会員。 アーロン・スティーブン・ホワイト、ドリュー・ライジンガー、坂口慶介、ティム・ヴィエイラ。 sheng zhang氏、rachel rudinger氏、kyle rawlins氏、benjamin van durme氏。
0.56
2016. Universal decompositional semantics on Universal Dependencies. 2016. 普遍的依存に関する普遍的分解的意味論 0.48
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1713–1723, Austin, Texas. 2016年の自然言語処理における経験的手法に関する会議では、テキサス州オースティンの1713-1723ページが取り上げられた。
訳抜け防止モード: 自然言語処理における経験的手法に関する2016年会議のまとめ 1713-1723頁、テキサス州オースティン。
0.77
Association for Computational Linguistics. Adina Williams, Nikita Nangia, and Samuel Bowman. 計算言語学会会員。 アディナ・ウィリアムズ、ニキータ・ナンギア、サミュエル・ボウマン。 0.51
2018. A broad-coverage challenge corpus for sentence understanding through inference. 2018. 推論による文理解のための広範にわたるチャレンジコーパス 0.52
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 1112–1122, New Orleans, Louisiana. the association for computational linguistics: human language technologies, volume 1 (long papers), pages 1112–1122, ルイジアナ州ニューオーリンズ。
訳抜け防止モード: 計算言語学会北米支部2018年会議報告 : ヒューマン・ランゲージ・テクノロジー Volume 1 (Long Papers ), page 1112–1122, New Orleans, Louisiana.
0.59
Association for Computational Linguistics. Wenpeng Yin, Dragomir Radev, and Caiming Xiong. 計算言語学会会員。 wenpeng yin、dragomir radev、caiming xiong。 0.48
2021. DocNLI: A large-scale dataset for documentIn Findings of level natural language inference. 2021. docnli: レベル自然言語推論の文書化のための大規模データセット。 0.62
the Association for Computational Linguistics: ACLIJCNLP 2021, pages 4913–4922, Online. association for computational linguistics: aclijcnlp 2021, pages 4913–4922, online (英語) 0.41
Association for Computational Linguistics. Jingqing Zhang, Yao Zhao, Mohammad Saleh, and Peter J. Liu. 計算言語学会会員。 jingqing zhang氏、yao zhao氏、mohammad saleh氏、peter j. liu氏。 0.54
2019. PEGASUS: pre-training with extracted gap-sentences for abstractive summarization. 2019. PEGASUS:抽象要約のための抽出ギャップ文による事前学習。 0.51
CoRR, abs/1912.08777. corr、abs/1912.08777。 0.40
Sheng Zhang, Rachel Rudinger, Sheng Zhang, Rachel Rudinger 0.35
and Benjamin Van Durme. ベンジャミン・ヴァン・ダームも 0.47
2017. An evaluation of PredPatt and open IE via stage 1 semantic role labeling. 2017. PredPattとオープンIEのステージ1セマンティックロールラベリングによる評価 0.50
In IWCS 2017 — 12th International Conference on Computational Semantics — Short papers. IWCS 2017 - 第12回計算意味論国際会議。 0.49
Yuhui Zhang, Yuhao Zhang, and Christopher D. Manning. Yuhui Zhang氏、Yuhao Zhang氏、Christopher D. Manning氏。 0.78
2020. A close examination of factual correctness evaluation in abstractive summarization. 2020. 抽象要約における事実正当性評価の綿密な検証 0.59
Anshuman Mishra, Dhruvesh Patel, Aparna Vijayakumar, Xiang Lorraine Li, Pavan Kapanipathi, and Kartik Talamadupula. Mishra、Dhruvesh Patel、Aparna Vijayakumar、Xiang Lorraine Li、Pavan Kapanipathi、Kartik Talamadupula。 0.29
2021. Looking beyond sentencelevel natural language inference for question answering and text summarization. 2021. 質問応答とテキスト要約のための文レベルの自然言語推論を超越する。 0.57
In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1322–1336, Online. The Association for Computational Linguistics: Human Language Technologies, page 1322–1336, Online. (英語)
訳抜け防止モード: 計算言語学会北米支部2021年会紀要 : 人間言語技術 1322-1336頁。
0.38
Association for Computational Linguistics. Ramesh Nallapati, Bowen Zhou, Cicero dos Santos, Ça˘glar Gucehre, and Bing Xiang. 計算言語学会会員。 ラメシュ・ナラパティ、ボーエン・周、キケロ・ドス・サントス、チャ・シグル・グセール、ビン・シアン。 0.46
2016. Abstractive text summarization using sequence-to-sequence In Proceedings of The 20th RNNs and beyond. 2016. 20世紀RNN以降におけるシーケンス・ツー・シーケンスを用いた抽象テキスト要約 0.55
SIGNLL Conference on Computational Natural Language Learning, pages 280–290, Berlin, Germany. SIGNLL Conference on Computational Natural Language Learning, page 280-290, Berlin, Germany 0.41
Association for Computational Linguistics. Shashi Narayan, Shay B. Cohen, and Mirella Lapata. 計算言語学会会員。 Shashi Narayan, Shay B. Cohen, Mirella Lapata 0.43
2018. Don’t give me the details, just the summary! topic-aware convolutional neural networks for exIn Proceedings of the 2018 treme summarization. 2018. トピックを意識した畳み込みニューラルネットワークは、2018年のtreme要約のexinプロシージャのためのものだ。 0.46
Conference on Empirical Methods in Natural Language Processing, pages 1797–1807, Brussels, Belgium. 自然言語処理における経験的方法に関する会議 1797-1807頁, ベルギー, ブリュッセル 0.80
Association for Computational Linguistics. Yuyang Nie, Yuanhe Tian, Yan Song, Xiang Ao, and Xiang Wan. 計算言語学会会員。 Yuyang Nie、Yuanhe Tian、Yan Song、Xiang Ao、Xiang Wan。 0.42
2020. Improving named entity recognition with attentive ensemble of syntactic informaIn Findings of the Association for Computation. 2020. 統語的情報の統合による名前付き実体認識の改善 : 計算学会の発見 0.55
tional Linguistics: EMNLP 2020, pages 4231–4245, Online. 言語学:emnlp 2020、ページ4231-4245、オンライン。 0.76
Association for Computational Linguistics. Artidoro Pagnoni, Vidhisha Balachandran, and Yulia Tsvetkov. 計算言語学会会員。 Artidoro Pagnoni、Vidhisha Balachandran、Yulia Tsvetkov。 0.42
2021. Understanding factuality in abstractive summarization with FRANK: A benchmark for factuality metrics. 2021. frankによる抽象要約における事実性を理解する: 事実性メトリクスのベンチマーク。 0.51
In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4812–4829, Online. The Association for Computational Linguistics: Human Language Technologies, page 4812–4829, Online. (英語)
訳抜け防止モード: 計算言語学会北米支部2021年会紀要 : 人間言語技術 4812-4829頁、オンライン。
0.46
Association for Computational Linguistics. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 計算言語学会会員。 コリン・ラフェル、ノーム・シャザー、アダム・ロバーツ、キャサリン・リー、シャラン・ナラン、マイケル・マテナ、ヤンチー・周、ウェイ・リー、ピーター・j・リュー。
訳抜け防止モード: 計算言語学会会員。 Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リュー(Peter J. Liu)。
0.72
2020. Exploring the limits of transfer learning with a unified text-to-text transformer. 2020. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.62
J. Mach. Learn. Res., 21:140:1–140:67. j・マッハ 学ぶ。 背番号21:140:1–140:67。 0.50
Nils Reimers and Iryna Gurevych. Nils ReimersとIryna Gurevych。 0.81
2017. Reporting score distributions makes a difference: Performance study of LSTM-networks for sequence tagging. 2017. スコア分布の報告には違いがある: シーケンスタギングのためのLSTM-networksの性能研究。 0.56
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 338–348, Copenhagen, Denmark. 2017年の自然言語処理における経験的手法に関する会議では、デンマークのコペンハーゲンにある338-348ページが紹介されている。
訳抜け防止モード: 自然言語処理における経験的手法に関する2017年会議のまとめ 338-348頁、デンマークのコペンハーゲン。
0.78
Association for Computational Linguistics. Alexis Ross, Tongshuang Wu, Hao Peng, Matthew E. Peters, and Matt Gardner. 計算言語学会会員。 アレクシス・ロス、トンジュアン・ウー、ハオ・ペン、マシュー・e・ピーターズ、マット・ガードナー。 0.52
2021. Tailor: Generating and perturbing text with semantic controls. 2021. Tailor: セマンティックコントロールによるテキストの生成と摂動。 0.62
CoRR, abs/2107.07150. CoRR, abs/2107.07150。 0.30
Alex Wang, Kyunghyun Cho, and Mike Lewis. アレックス・ワン、キュンヒョン・チョー、マイク・ルイス。 0.47
2020. Asking and answering questions to evaluate the facIn Proceedings of tual consistency of summaries. 2020. 要約の統語的一貫性に関するfacinの手順を評価するために質問と回答を行う。 0.45
英語(論文から抽出)日本語訳スコア
overlapping spans from a single input, we randomly select two tuples from each sentence. 1つの入力から重なり合い、各文からランダムに2つのタプルを選択します。 0.67
D Falsesum Examples We include more examples of generated NLI instances in Table D Falsesum例 テーブルで生成されたNLIインスタンスのより多くの例を含む。 0.73
6. We also include cases where Falsesum inadvertently generates factually consistent summaries in Table 6.偽サムが表に事実一貫性のある要約を誤って生成するケースも含む。 0.57
7. Lastly, we show several examples of the formatted input and the generated output at test time in Table 8. 7) 最後に、表8において、書式化された入力と、テスト時に生成された出力の例を示す。 0.66
A Hyperparameters Generator model We train a T5-base model for three epochs with batch size of 24 using the AdamW optimizer. ハイパーパラメータ生成モデル 私たちは、AdamWオプティマイザを使用して、バッチサイズ24の3つのエポックに対してT5ベースモデルをトレーニングします。
訳抜け防止モード: ハイパーパラメータ生成モデル バッチサイズ24の3つのエポックに対してT5ベースモデルを訓練する AdamWオプティマイザを使用する。
0.69
We set the maximum source token length to 256 and the target token length to 42. 最大ソーストークン長を256に設定し,ターゲットトークン長を42に設定した。 0.72
We use a learning rate of 3e−5 and fix the random seed to 11. 学習率は3e−5で、ランダムシードを11に固定する。 0.69
For decoding, we set the minimum and maximum sequence length to 10 and 60, respectively. 復号法では,最小列長と最大列長をそれぞれ10と60に設定した。 0.68
We sample using beam search with a beam of size two. ビームサーチを大きさ2のビームでサンプルする。 0.63
We additionally set the repetition penalty to 2.5 and the length penalty to 1.0. また,繰り返し刑を2.5,長さ刑を1.0とした。 0.57
Classification model We train RoBERTa-base models on augmented and original MNLI datasets for three epochs with a batch size of 32. 分類モデル バッチサイズ32の3つのエポックに対して、強化およびオリジナルMNLIデータセット上でRoBERTaベースモデルをトレーニングする。 0.72
The learning rate is set to 1e−5, while the maximum input token length is set to either 128 or 512. 学習速度は1e−5に設定され、最大入力トークン長は128または512に設定されている。 0.73
We use the following random seeds for the five training runs: 11, 12, 13, 14, and 15. 11,12,13,14,15の5つのトレーニングランには,以下のランダムシードを使用します。 0.79
B Aggregating Predictions We follow Falke et al (2019) to adapt out-of-thebox MNLI models to document-level input by performing a sentence-wise prediction before aggregating the output. b 集約予測 falke et al (2019) に従って、出力を集約する前に文単位の予測を行い、ドキュメントレベルの入力にアウトオブボックスmnliモデルを適用する。 0.68
Given a document D consisting of sentences d1, . . . , dn, and a multi-sentence summary S consisting of s1, . . . , sm, we aggregate the probability scores given by the classifier model F on each di, s j pair. 文 d1, . . . . . . dn, および s1, . . . sm からなる多文要約 S からなる文書 D が与えられると、各 di, s j 対の分類器モデル F によって与えられる確率スコアを集約する。 0.83
The aggregated consistency score σ(D, S ) is given by: 集約された一貫性スコアσ(D,S)は以下の通りである。 0.64
m(cid:88) j=1 m(cid:88) j=1 0.36
σ(D, S ) = σ(D, S ) = 0.43
1 m max d∈D 1m max (複数形 maxs) 0.35
F(d, s j) This means that it is sufficient for a summary sentence to be factually consistent given only a single entailing sentence in the source document. F(d, s j) つまり、ある要約文が、ソース文書に記載された1つの文だけを与えられた場合、事実的に一貫性を持つには十分である。
訳抜け防止モード: F(d, s j) それだけで十分という事です ソース文書に記載された1つの文のみを事実上一貫性のある要約文とする。
0.55
We then take the average scores across the summary sentences since each of them needs to be entailed by the source document. 次に、各文をソースドキュメントに含める必要があるため、要約文の平均スコアを取ります。 0.61
We use a similar aggregation method to evaluate augmented MNLI models on multi-sentence summaries from the Summeval and Ranksum benchmarks. 我々は, Summeval と Ranksum のベンチマークから, 多文要約を用いた拡張MNLIモデルの評価に類似の集約法を用いる。 0.73
C Falsesum Details In the preprocessing steps, we only perform the predicate and argument span extraction on the first 15 sentences for computational efficiency. c falsesumの詳細 前処理ステップでは、計算効率のために最初の15文で述語と引数スパンの抽出のみを行う。 0.80
For training, this is not an issue since the gold spans from the reference summary are included in the input. トレーニングでは、参照サマリーからの金のスパンが入力に含まれるため、これは問題ではない。 0.62
Additionally, we may extract multiple OpenIE relation tuples from each sentence. さらに、各文から複数のopenie関係タプルを抽出することもできる。 0.69
To avoid having avoid (複数形 avoids) 0.44
英語(論文から抽出)日本語訳スコア
Mexican federal police have arrested a fugitive on the FBI’s 10 Most Wanted list, Mexican authorities said. メキシコ当局によると、米連邦捜査局(fbi)の指名手配リスト10件で、米連邦捜査局(fbi)が逃亡者を逮捕した。 0.48
Jorge Alberto Lopez Orozco allegedly murdered his girlfriend and her two young sons. ジョルジェ・アルベルト・ロペス・オロスコ(Jorge Alberto Lopez Orozco)は、彼のガールフレンドと2人の息子を殺したとされる。 0.44
Jorge Alberto Lopez Orozco is wanted in Elmore County, Idaho, on charges that he shot and killed three people, the FBI said. fbiによると、ジョルジュ・アルベルト・ロペス・オロスコ容疑者はアイダホ州エルモア郡で3人を射殺した容疑で逮捕された。 0.56
The charred remains of a woman and her sons, ages 2 and 4, were found inside a burned-out vehicle on August 11, 2002, it said. 2002年8月11日に燃え尽きた車の中で、女性と息子2歳と4歳の息子の遺骨が発見されたという。 0.64
Each victim had been shot in the head or chest. 各犠牲者は頭や胸に撃たれていた。 0.70
The FBI was still working Friday to confirm the identity of the man in custody, said Debbie Dujanovic, a spokeswoman in the agency’s Salt Lake City, Utah, field office. ユタ州ソルトレイクシティの広報担当、デビー・ドゥジャノビッチ氏は、fbiは同容疑者の身元確認のため、まだ金曜日(米国時間10/26)に働いていると述べた。 0.56
The Salt Lake City office has jurisdiction in the case. ソルトレイク市事務所が管轄権を持っている。 0.61
An extradition order was issued in January 2007, the Mexican attorney general’s office said in a news release Thursday. メキシコ検事総長は9日、2007年1月に引き渡し命令が発令されたと発表した。
訳抜け防止モード: 2007年1月、引渡し命令が出された。 メキシコ司法長官事務所は17日、報道発表で明らかにした。
0.63
A reward of up to $100,000 was being offered, the FBI said. FBIによると、最大10万ドルの報酬が提供されていた。 0.70
Lopez, 33, was captured in Zihuatanejo, a city northwest of Acapulco on the Pacific Coast in southern Mexico, the Mexican attorney general’s office said. メキシコ司法長官事務所によると、ロペス容疑者(33)はメキシコ南部太平洋岸のアカプルコの北西、ジワタネホで逮捕された。 0.55
Zihuatanejo is in Guerrero state, but Lopez was transferred to a jail in neighboring Michoacan state, officials said. ジワタネホはゲレロ州にあるが、地元ミショアカン州の刑務所に移されたと当局が明らかにした。 0.50
The arrest came about after investigation and intelligence work by Mexican authorities, the attorney general’s office said. 検事総長は、メキシコ当局による捜査と諜報活動の後に逮捕されたと明らかにした。 0.74
According to the FBI, Lopez abducted his girlfriend, Rebecca Ramirez, and her two young sons from her father’s house in Nyssa, Oregon, on July 30, 2002. FBIによると、2002年7月30日、ロペスは彼女のガールフレンドレベッカ・ラミレス(Rebecca Ramirez)と2人の息子をオレゴン州ニッサ(Nyssa)の父親の家から誘拐した。 0.71
The car he had been driving was found nearly two weeks later on a rural road near Mountain Home, Idaho, officials said. . . . 彼が運転していた車は、約2週間後にアイダホ州マウンテンホーム近くの田舎道で発見されたという。 0.65
entailment entailment 0.42
FBI was still working Friday to confirm the identity of the man in custody. fbiは25日、容疑者の身元確認にまだ取り組んでいた。 0.62
(intrinsic) non-entailment An extradition order was issued in July 30, 2002, to determine the identity of the man in custody. 2002年7月30日、拘留中の人物の身元を判断する引き渡し命令が発令された。
訳抜け防止モード: (本質的)非含意 2002年7月30日に引き渡し命令が出された。 拘留中の男の身元を 特定するために。
0.57
He may have been allowed to leave the club without ever playing a league game for the first team, but Kristoffer Olsson still showed Arsenal some love as he departed. 最初のチームではリーグ戦を行わずにクラブを去ることが許されたが、クリストファー・オルソン(kristoffer olsson)はいまだにアーセナルへの愛を見せていた。 0.67
The 19-year-old Swede, whose only first-team appearance for the Gunners came off the bench in the Capital One Cup last season, has joined FC Midtjylland this week on a permanent deal. 19歳のスウェーデンは、前シーズンのキャピタリスト・ワンカップに出場した唯一のチームメンバーで、今週のFCミッドティルランドに常勤契約で加入した。 0.63
But, as the news was announced, Olsson took to Twitter to say ’Once a Gunner, always a Gunner’. しかしそのニュースが発表されたとき、olssonはtwitterで、’once a gunner, always a gunner’と発言した。 0.80
Kristoffer Olsson (right) played just once for Arsenal’s first team, in the Capital One cup against West Brom . クリストファー・オルソン(右)はアーセナルの最初のチームでウェスト・ブロム戦のキャピタル・ワン・カップで1度プレーした。 0.63
Olsson expressed his love for the club on Twitter, despite being sold to FC Midtjylland . オルソンはfcmidtjyllandに売却されたにもかかわらず、twitterでクラブへの愛を表明した。 0.65
The tweet reflects Cesc Fabregas’ comments when he left the club to join Barcelona, although the Spanish midfielder has sinced joined rivals Chelsea, after Arsene Wenger opted not to buy him back. アルセネ・ウェンガーがクラブを辞めてバルセロナに加入した際、このツイートはCesc Fabregas氏のコメントを反映しているが、スペイン代表はその後、ライバルのChelseaに加入した。 0.76
Olsson has been on loan at FC Midtjylland since the beginning of the season, playing six times in the Danish top flight. オールソンはシーズン序盤からFCミッドチルランドにレンタル移籍し、デンマーク代表として6度プレーした。
訳抜け防止モード: シーズン開始以来、オルソンはfcミッドフィルランドにレンタル移籍している。 デンマークのトップフライトで6回プレーした。
0.69
The Sweden U21 international said on joining permanently: ’this is a club that believes in me and sees my potential. スウェーデンのU21国際連盟(U21)は「このクラブは僕を信じ、私のポテンシャルを信じている。 0.79
’ Olsson has played six times on loan with FC Midtjylland and has now joined the Danish club permanently. オールソンはFCミッドティルランドで6度プレーし、デンマークのクラブに常属している。 0.62
Swedish international takes to social media to express love for Arsenal. スウェーデンの国際社会は、アーセナルへの愛を表現するためにソーシャルメディアを取り上げている。 0.51
Swedish international has been on loan at Chelsea since last season. スウェーデン・インターナショナルは前シーズンからチェルシーで融資を受けている。 0.73
entailment (intrinsic) non-entailment A teenager who was struck down with an agonising bowel condition says dancing has helped him to overcome his debilitating illness. 腸疾患で倒れた10代の若者は、ダンスが彼の衰弱した病気を克服するのに役立ったと語る。 0.60
Macaulay Selwood, 17, was diagnosed with Crohn’s two years ago and was so unwell that he was often left in agony on the floor unable to move. マコーレー・セルウッドさん(17)は2年前にクローンさんと診断され、とてもうれしかったため、床に置き去りにされることが多かった。 0.59
But his determination to continue his promising dancing career gave him the spur he needed to battle through. しかし、彼の有望なダンスのキャリアを継続する決意は、彼が戦うために必要な刺激を与えた。 0.64
Lord of the Dance: Macaulay at his practice studio. ロード・オブ・ザ・ダンス(Lord of the Dance: Macaulay)は、彼の練習スタジオ。 0.50
He was diagnosed with Crohn’s in September 2010 after collapsing in agony during a dance class . 2010年9月、ダンスクラスでアゴニーに倒れてクローンと診断された。 0.47
Recovery: ’Dancing has helped me overcome it (Crohn’s). 回復:‘Dancing’は私が乗り越えるのを助けてくれた(Crohn’s)。 0.72
It kept me motivated’ Now the teenager from Bristol has made it to the finals of the Irish dancing world championships in Boston, USA, and is hotly-tipped for glory. ブリストルの10代の若者たちは、米国ボストンで開催されたアイリッシュ・ダンス・ワールド・チャンピオンシップ(アイリッシュ・ダンス・ワールド・チャンピオンシップ)の決勝に進出した。 0.61
He will then have a trial at the famous performing arts school, ArtsEd, in London. その後、ロンドンのartsedにある有名なパフォーミング・アーツ・スクールで裁判を受ける。 0.61
At shows he has been compared with Riverdance star Michael Flatley while others have taken to calling him Billy Elliot, after the film character who overcomes the odd to becoming a dancing star. ショーではリヴァーダンスのスターであるマイケル・フラットリーと比較され、他の者はビリー・エリオット(Billy Elliot)と名乗った。
訳抜け防止モード: ショーでは、リバーダンスのスターであるマイケル・フラットリーと比べられ、他のメンバーも取り上げている。 ビリー・エリオット(Billy Elliot) ビリー・エリオット(Billy Elliot)。
0.57
Macaulay did ballet at college before focusing on Irish dancing for the world championships and works at Tesco to fund his passion. . . . マカウレイは大学でバレエをし、世界選手権のアイルランドダンスに集中し、テスコで彼の情熱に資金を提供した。 0.68
entailment Macaulay Selwood, 17, first starting suffering from Crohn’s disease in 2010. マコーレー・セルウッドさん(17)は2010年にクローン病を患い始めた。 0.62
The 22-year-old, who was diagnosed with Crohn’s in 2010, has been recovering since 2010. 2010年にクローン病と診断された22歳の男性は、2010年から回復を続けている。 0.66
(extrinsic) non-entailment When Matthew Briggs, 32, from Huntington in North Yorkshire noticed that his father had posted a photo of them together on Facebook, he was initially pleased. 北ヨークシャーのハンティントン出身のマシュー・ブリッグスさん(32)は、父親が一緒に写真をfacebookに投稿していたことに気付き、最初は喜んだ。 0.63
But when he opened the photo and saw the image, Mr Briggs was left horrified by the sight of his 31st frame. しかし、写真を開いてその写真を見たとき、ブリッグス氏は31番目のフレームを見て恐ろしかった。 0.68
Now, two years on, he has shed an astonishing 17st and, in November, will complete the New York marathon in memory of his mother Susan who died from multiple sclerosis when he was just 18. 今年11月には、彼が18歳の時に多発性硬化症で亡くなった母親スーザンを記念して、ニューヨークマラソンを終える予定です。
訳抜け防止モード: 2年後 彼は驚くべき17歳の誕生日を過ごしました 11月には、彼の母スーザンを記念して、ニューヨークマラソンを完了します。 18歳の時に多発性硬化症で死去。
0.66
Pounding the pavements: Matthew Briggs, 32, has lost an impressive 17st in just two years of slimming . マシュー・ブリッグスさん(32)は、わずか2年で17位に終わりました。
訳抜け防止モード: 舗装に穴をあける マシュー・ブリッグスさん(32)は、わずか2年で17歳になった。
0.55
’In March of 2000, she lost her battle with Multiple Sclerosis,’ he says. 2000年3月、彼女は多発性硬化症との戦いに負けました。 0.54
’She has always been my inspiration. 彼女はいつも私のインスピレーションでした。 0.71
I am the man I am today because of the woman she was. 私は彼女がいたので今日私がいる男です。 0.67
’ Money raised by Mr Briggs’ 26-mile run will be donated to the Multiple Sclerosis Society, a charity dedicated to beating the disease as well as supporting sufferers and their families. ブリッグス氏の26マイル(約230km)の資金は、病気を治すだけでなく、患者とその家族を支援する慈善団体「multiple sclerosis society」に寄付される。 0.69
Mr Briggs, who has dropped from 31st to just under 14st, had piled on the pounds thanks to a diet of ready meals, takeaways and daily two litre bottles of Coca-Cola. ブリッグス氏は31日から14日弱に下がったが、準備が整った食事やテイクアウト、コカ・コーラの1日2リットルのボトルなどのおかげでポンドを積み重ねていた。 0.61
But, after seeing the photo posted on Facebook and spurred on by a bet with his father, Mr Briggs joined his local Slimming World group and went on to shed more than 17st over two years. . . . しかし、この写真がFacebookに投稿され、父親との賭けに拍車をかけた後、ブリッグス氏は地元のスライミング・ワールド・グループに加わり、2年間で17人以上を解雇した。
訳抜け防止モード: しかし、その写真がFacebookに投稿されたのを見て、父親と賭けた。 ブリッグス氏は地元のスライミング・ワールド・グループに加わり、続けていった 2年で17人以上を 処分するなんて...。
0.56
entailment (extrinsic) non-entailment entailment (複数形 entailments) 0.34
She died in 2000 of multiple sclerosis and funds raised will go to charity. 2000年に多発性硬化症で死去し、資金は慈善事業に寄付される。 0.64
She died in 2000 of multiple sclerosis and every penny she saves will go to charity. 2000年に多発性硬化症で死去し、貯蓄金はすべて慈善事業に寄付される。 0.63
Table 6: Examples of NLI pairs generated by Falsesum. 表6: Falsesumによって生成されたNLIペアの例。 0.73
We show both the entailment and non-entailment hypotheses obtained from each source document. 各資料から得られた補足仮説と非補足仮説の両方を示す。 0.59
Green-highlighted spans indicate the information used consistently in the summary. 緑色の明るいスパンは、サマリで一貫して使用される情報を示しています。 0.39
Red-highlighted spans indicate information used or inserted by the model to generate an inconsistent summary. 赤信号スパンは、一貫性のない要約を生成するためにモデルが使用または挿入した情報を示す。 0.51
英語(論文から抽出)日本語訳スコア
The Mojito, a Cuban mix of white rum, sugar, lime, mint and soda water, is the most popular cocktail in Britain according to a report . 報告書によると、キューバ産の白ラム、砂糖、ライム、ミント、ソーダ水を混ぜたモジトは、イギリスで最も人気のあるカクテルである。 0.65
Sales of cocktails have risen by more than 10 per cent in the past two years. カクテルの販売は過去2年間で10%以上増加した。 0.58
More than one in five of Britain’s pubs and bars now serve cocktails and the Mojito – a Cuban mix of white rum, sugar, lime, mint and soda water – is the most popular, according to a report. 英国のパブやバーの5つのうち1つ以上がカクテルを提供しており、モジトはキューバのホワイトラム、砂糖、ライム、ミント、ソーダの水を混ぜたもので、最も人気がある。 0.61
Pina Coladas (rum, coconut and pineapple juice) and Woo Woos (vodka, peach schnapps and cranberry juice) were also popular. ピナ・コラダス(ラム、ココナッツ、パイナップルジュース)やウー・ウース(ウォッカ、ピーチ・シュナップス、クランベリージュース)も人気があった。 0.72
The Mixed Drinks Report, by consultancy firm CGA Strategy, found more women than men choose cocktails, as 54 per cent of cocktail drinkers are female. コンサルティング会社CGA StrategyのMixed Drinks Reportによると、カクテルを飲む人の54%が女性であるため、男性はカクテルを選ぶよりも女性の方が多い。 0.71
Bomb and pitcher serves remain popular, with 74 per cent of 18 to 24-year-olds admitting to have bought a bomb drink, while nine in 10 in the same age range say they drink pitchers. 爆弾とピッチャーは今でも人気があり、18歳から24歳の74%が爆弾の飲み物を買ったことを認めており、同じ年齢の10人に9人はピッチャーを飲んでいると答えている。 0.61
Cocktails are enjoyed by the core 18 to 35-year-old demographic ’in all on-trade occasions’ including throughout the night, as opposed to just the start. . . . カクテルは18歳から35歳の中年層が楽しんでいる。
訳抜け防止モード: カクテルは中核となる18歳から35歳の年齢層で、夜通しの「取引の機会」が楽しめる。 ただの始まりとは対照的に。
0.67
gold Sales of cocktails have risen by more than 10 per cent in the past two years. 金 カクテルの販売は過去2年間で10%以上増加した。 0.61
(extrinsic) generated Cocktails have soared in popularity over the past two years. この2年間、(極端に)生産されたカクテルの人気が高まっている。 0.58
From Yellowstone National Park to the Everglades, America’s 391 national parks are in need of repair – and thanks to the economic stimulus signed into law, help is now underway. イエローストーン国立公園からエバーグレーズまで、アメリカの391の国立公園は修復を必要としています。
訳抜け防止モード: イエローストーン国立公園からエバーグレーズまで、アメリカの391の国立公園は修復を必要としている。 法に署名された経済刺激のおかげで 支援が進行中です
0.68
President Obama and his family visit the Grand Canyon in Arizona, a national park. オバマ大統領とその家族は、国立公園アリゾナのグランドキャニオンを訪れます。 0.68
President Obama’s $787 billion economic stimulus plan passed in February and designated $750 million dollars to the national parks. オバマ米大統領の経済刺激策は2月に可決され、7億5000万ドルを国立公園に割り当てた。 0.69
But not all of the stimulus money is being used – and the parks are facing a $9 billion backlog in maintenance projects. しかし、すべての刺激金が使われているわけではない ― そして公園は保守プロジェクトにおいて90億ドルのバックログに直面している。 0.66
So far, nearly 10 percent is in the pipeline. これまでのところ、10%近くがパイプライン内にある。 0.64
"We are picking away at it as much as we can and we’ve been fortunate to have the recovery act money," said Jeffrey Olson of the National Park Service. 国立公園局のジェフリー・オルソン氏は、「我々はできる限りそれを取り除き、リカバリ法(リカバリ法)の金が手に入ることに幸運だった」と述べた。 0.68
Olson said half of the $9 billion is slated to go for road repairs. olsonによると、90億ドルの半分は道路の修理に充てられる。 0.70
"Half of that [$9 billion] is roads and about $2 billion of that are the most pressing needs – those we get some help from the stimulus. The president’s budget proposal is calling for more maintenance and construction money," Olsen said. オルセン総裁は、「(90億ドル)の半分は道路であり、その約20億ドルは最も差し迫った需要だ。景気刺激策の助けを借りるものだ。大統領の予算提案は、さらなるメンテナンスと建設資金を求めている」と述べた。 0.75
Dan Wenk, the acting director of the National Park Service says most of those pressing needs include, "camp grounds, camp sites, it’s amphitheaters for evening programs. 国立公園局のディレクター、ダン・ウェンク(dan wenk)は、「キャンプ場、キャンプ場、夕べのプログラムのための円形劇場」など、迫り来るニーズのほとんどは含まれていると話す。 0.58
It’s the bathrooms. . . . (intrinsic) generated America’s 391 national parks are facing a $9 billion backlog of maintenance needs. それは浴室だ。 アメリカの391の国立公園は、90億ドル(約9兆4500億円)のメンテナンス費を抱えています。 0.49
gold Park Service is dealing with a $9 billion backlog of maintenance needs. 金 Park Serviceは、90億ドルのメンテナンスニーズのバックログを扱っている。 0.71
Table 7: Falsesum-generated summaries that are unintentionally consistent with the source document. 表7:falsesum生成のサマリーは、意図せずソースドキュメントと一致します。 0.69
Green-highlighted spans indicate information which is consistent with the document. 緑に照らされたスパンは、文書と整合した情報を示す。 0.53
Predicates : is being offer for, were steal from, sell, Both as a solo artist and leader of the Heartbreakers, is one of , according to, where were rehearse for, contribute to, was induct into in; Arguments : the Heartbreakers, The band, Denise Quan, five guitars, the Recording Industry Association of America, more than 57 million albums, Petty, A 7,500 reward, a soundstage, the Rock & Roll Hall of Fame; Code : intrinsic; Summary :<span_1> <span_0> the 1960s. 賛辞:is being offer for, were steal, sell, both as a solo artist and leader of the heartbreakers, is which was rehearse for, contributor, was in; argument: the heartbreakers, the band, denise quan, five guitars, the recording industry association of america, 557 million albums, petty, a 7,500 reward, a soundstage, the rock & roll hall of fame; code : fundamental; summary :<span_1> <span_0> the 1960s。
訳抜け防止モード: predicates (複数形 predicates または predicates) ソロアーティストとしても ハートブレーカーズのリーダーとしても リハーサルがどこにあったか、貢献したか、 議論に取り入れられました ハートブレーカー、バンド、デニス・クーン、5つのギター アメリカレコード産業協会は5億5700万枚以上のアルバムを出版した。 petty, a 7,500 reward, a soundstage, the rock & roll hall of fame ; code : intrinsic ; summary : < span_1 > < span_0 > the 1960年代。
0.70
gold (intrinsic) generated gold (複数形 golds) 0.74
Three of them were vintage guitars from the 1960s. 3人は1960年代のヴィンテージギターであった。 0.84
The band was inducted into the Rock & Roll Hall of Fame in the 1960s. バンドは1960年代にロック・アンド・ロール殿堂入りを果たした。 0.71
Predicates : : is only the second time in, How could have do with, was lace with, struggle against at, have score, expect to match, had settle into, ignite, has lost, Just as was walk into, were already circulate on, begin to filter, watch on in; Arguments : his chair, Anfield, clips, the stands, symbolism, 13 Premier League goals, Brendan Rodgers, through, Liverpool, the 100-plus strikes of last season, 13 games against Hull, everything, one; Code : intrinsic; Summary :Luis Suarez took three minutes to <span_0> <span_1>. Predicates : : is only the second time in, How could have do with, was lace with, struggle against at, have score, expect to match, had settle into, ignite, has lost, Just as was walk into, were already circulate on, begin to filter, watch on in; Arguments : his chair, Anfield, clips, the stands, symbolism, 13 Premier League goals, Brendan Rodgers, through, Liverpool, the 100-plus strikes of last season, 13 games against Hull, everything, one; Code : intrinsic; Summary :Luis Suarez took three minutes to <span_0> <span_1>.
訳抜け防止モード: 述語 : : : は二度目であり、どのようにできたか。 レース、atと闘い、スコアを獲得し、試合を期待していた。 落ち着き、着火し、失われた、ちょうど入ってきたように、既に循環していた。 フィルタを始め、in ; 引数に注目する 椅子、アンフィールド、クリップ、スタンド、象徴主義 13のプレミアリーグゴール、ブレンダン・ロジャース、パス、リヴァプール。 前シーズンの100人超のストライキ、13試合のハルと対戦。 all, one ; code : intrinsic ; summary : luis suarez は < span_0 > < span_1 > に3分かかった。
0.74
gold (intrinsic) generated gold (複数形 golds) 0.74
Luis Suarez took three minutes to get his first assist for Barcelona. ルイス・スアレスはバルセロナでの最初のアシストを受けるのに3分を要した。 0.60
Luis Suarez took three minutes to ignite symbolism. ルイス・スアレスは象徴主義の発火に3分かかった。 0.53
Predicates : allegedly know, supposedly write, in ’ was underway, is investigate, file against in by, file in, forbid, was toss by in, wait for, fire at, accuse of, decide to fire based on, new information state, told, allegedly sent to, was complicate by, Even though was toss, allegedly made, hold no more, expose to; Arguments : the case, new information states, his sexual abuse, more recent damages, people, the blog posts, 2011, him, This week, her, allowing at one of his Los Angeles stores to post naked photos of Morales on a blog that was meant to appear as though it belonged to Morales, American Apparel, The Post, a settlement, The clothing company, Charney, new information saying he allowed an employee to impersonate and post naked photos online of an alleged victim of his sexual abuse who filed a case against him in 2011, a settlement ’in the low six-digits’ was underway, the company title, employee, 2012, The $260 million lawsuit, a report from March 25, 2011 that said Morales allegedly sent nude photos of herself to Charney after she stopped working at the store, nude photos of herself, Morales; Code : extrinsic; Summary :Women in the video <span_0> <span_1>. Predicates : allegedly know, supposedly write, in ’ was underway, is investigate, file against in by, file in, forbid, was toss by in, wait for, fire at, accuse of, decide to fire based on, new information state, told, allegedly sent to, was complicate by, Even though was toss, allegedly made, hold no more, expose to; Arguments : the case, new information states, his sexual abuse, more recent damages, people, the blog posts, 2011, him, This week, her, allowing at one of his Los Angeles stores to post naked photos of Morales on a blog that was meant to appear as though it belonged to Morales, American Apparel, The Post, a settlement, The clothing company, Charney, new information saying he allowed an employee to impersonate and post naked photos online of an alleged victim of his sexual abuse who filed a case against him in 2011, a settlement ’in the low six-digits’ was underway, the company title, employee, 2012, The $260 million lawsuit, a report from March 25, 2011 that said Morales allegedly sent nude photos of herself to Charney after she stopped working at the store, nude photos of herself, Morales; Code : extrinsic; Summary :Women in the video <span_0> <span_1>.
訳抜け防止モード: 述語:「筆記」が進行中であったと伝えられる。 は調査され、 by, file in, 禁じられている。 さっさと投げ入れ 待ち 火を放ち 非難し 新しい情報に基づいて 発砲することにしました 言い渡され、複雑になったと伝えられるが、それはトスだった。 伝えられるところでは、もう、これ以上、露出する; 論証 : その場合 新しい情報によると 彼の性的虐待 より最近の損害 人、ブログ投稿、2011年、彼、今週、 彼女はロサンゼルスの店舗の1つで、モラレスの裸の写真がモラレスの所有物のように見せることを意図したブログに投稿することを許可した。 American Apparel, The Post, a settlement, the clothing company, チャーリーが従業員に偽装を許したという新たな情報 2011年に彼を訴えた 性的虐待の被害者の 裸の写真をネットに投稿した 低い6桁の「決済」が進行中だった。 社名、従業員、2012年 2億6000万ドルの訴訟 2011年3月25日の報道によると、モラレスは店で働くのをやめた後、自分のヌード写真をチャーニーに送ったという。 nude photos of yourself, Morales ; Code : extrinsic ; Summary : Women in the video < span_0 > < span_1 >
0.78
(extrinsic) generated Women in the video were allegedly sexually assaulted by Morales. ビデオで生成された女性たちは、モラレスによって性的暴行を受けたとされる。 0.54
gold Women in the video have been identified as current or former American Apparel workers. ビデオの中の金の女性は、現在または元アメリカのアパレル労働者と特定されている。 0.61
Table 8: Examples of the formatted input at test time and the real output of the Falsesum generation model. 表8: テスト時にフォーマットされた入力の例とfalsesum生成モデルの実際の出力。 0.78
Blue-highlighted spans show the formatted input predicates. 青色の明るいスパンは、フォーマットされた入力述語を表示する。 0.44
Green-highlighted spans show the formatted input arguments. 緑色の明るいスパンは、フォーマットされた入力引数を表示する。 0.47
Yellow-highlighted spans show the formatted input control code. イエローライトのスパンは、フォーマットされた入力制御コードを表示する。 0.49
Gray-highlighted spans show the formatted input masked gold summary. グレーの明るいスパンは、フォーマットされた入力マスク金の要約を示す。 0.46
Red-highlighted spans show the information inserted by the model to render inconsistent summaries. red-highlighted spansはモデルが挿入した情報を表示し、一貫性のない要約を描画する。 0.55
                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。