論文の概要: Counterfactual Data Augmentation improves Factuality of Abstractive
Summarization
- arxiv url: http://arxiv.org/abs/2205.12416v1
- Date: Wed, 25 May 2022 00:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:58:46.798831
- Title: Counterfactual Data Augmentation improves Factuality of Abstractive
Summarization
- Title(参考訳): 逆データ拡張は抽象要約の事実性を改善する
- Authors: Dheeraj Rajagopal, Siamak Shakeri, Cicero Nogueira dos Santos, Eduard
Hovy, Chung-Ching Chang
- Abstract要約: 提案手法によりトレーニングデータを増強することにより,ROUGEスコアに大きな影響を及ぼすことなく,要約の事実的正しさが向上することを示す。
一般的に使われている2つの要約データセット(CNN/Dailymail と XSum)では,平均2.5ポイント程度で事実の正しさが向上することを示す。
- 参考スコア(独自算出の注目度): 6.745946263790011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstractive summarization systems based on pretrained language models often
generate coherent but factually inconsistent sentences. In this paper, we
present a counterfactual data augmentation approach where we augment data with
perturbed summaries that increase the training data diversity. Specifically, we
present three augmentation approaches based on replacing (i) entities from
other and the same category and (ii) nouns with their corresponding WordNet
hypernyms. We show that augmenting the training data with our approach improves
the factual correctness of summaries without significantly affecting the ROUGE
score. We show that in two commonly used summarization datasets (CNN/Dailymail
and XSum), we improve the factual correctness by about 2.5 points on average
- Abstract(参考訳): 事前学習された言語モデルに基づく抽象要約システムは、しばしば一貫性があるが事実に一貫性のない文を生成する。
本稿では,トレーニングデータの多様性を増大させる混乱した要約を用いたデータ拡張手法を提案する。
具体的には,置き換えに基づく拡張アプローチを3つ紹介する。
(i)他と同一のカテゴリーの実体
(ii)対応するwordnetハイパーニムを持つ名詞。
提案手法によりトレーニングデータを増強することにより,ROUGEスコアに大きな影響を及ぼすことなく,要約の事実的正しさが向上することを示す。
2つの一般的な要約データセット(cnn/dailymailとxsum)において、事実の正確性が平均2.5ポイント向上することを示す。
関連論文リスト
- Entity-level Factual Adaptiveness of Fine-tuning based Abstractive
Summarization Models [31.84120883461332]
我々は、微調整に基づく要約モデルの頑健さと知識衝突を解析する。
本稿では,制御可能な対実データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-02-23T07:53:39Z) - Data Augmentation for Traffic Classification [54.92823760790628]
Data Augmentation (DA) はコンピュータビジョン(CV)と自然言語処理(NLP)に広く採用されている技術である。
DAはネットワークのコンテキスト、特にトラフィック分類(TC)タスクにおいて、牽引力を得るのに苦労しています。
論文 参考訳(メタデータ) (2024-01-19T15:25:09Z) - Questioning the Validity of Summarization Datasets and Improving Their
Factual Consistency [14.974996886744083]
SummFCは,事実整合性を改善したフィルタされた要約データセットである。
我々は,データセットが要約システムの開発と評価のための有効なベンチマークとなるべきだと論じている。
論文 参考訳(メタデータ) (2022-10-31T15:04:20Z) - Correcting Diverse Factual Errors in Abstractive Summarization via
Post-Editing and Language Model Infilling [56.70682379371534]
提案手法は, 誤要約の修正において, 従来手法よりもはるかに優れていることを示す。
我々のモデルであるFactEditは、CNN/DMで11点、XSumで31点以上のファクトリティスコアを改善する。
論文 参考訳(メタデータ) (2022-10-22T07:16:19Z) - Improving Commonsense Causal Reasoning by Adversarial Training and Data
Augmentation [14.92157586545743]
本稿では,因果推論の領域において,モデルをより堅牢にするための多くの手法を提案する。
少数の追加生成データポイントがなくても、パフォーマンスと両方のデータセットの統計的に有意な改善を示します。
論文 参考訳(メタデータ) (2021-01-13T09:55:29Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z) - The Penalty Imposed by Ablated Data Augmentation [17.639472693362926]
本研究では,線形回帰に対する平均拡張データと逆ドロップアウトの形式モデルについて検討する。
短縮データ拡張は、通常の最小二乗目標とペナルティの最適化と等価であることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:38:21Z) - Semi-Supervised Models via Data Augmentationfor Classifying Interactive
Affective Responses [85.04362095899656]
本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。
ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。
ラベルなし文に対しては,ラベルなし文に対する低エントロピー予測を擬似ラベルとして検討した。
論文 参考訳(メタデータ) (2020-04-23T05:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。