論文の概要: Lexical Repetitions Lead to Rote Learning: Unveiling the Impact of
Lexical Overlap in Train and Test Reference Summaries
- arxiv url: http://arxiv.org/abs/2311.09458v1
- Date: Wed, 15 Nov 2023 23:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:17:31.428007
- Title: Lexical Repetitions Lead to Rote Learning: Unveiling the Impact of
Lexical Overlap in Train and Test Reference Summaries
- Title(参考訳): 語彙反復はロート学習に繋がる--列車および試験基準要約における語彙重なりの影響を明らかにする
- Authors: Prafulla Kumar Choubey and Alexander R. Fabbri and Caiming Xiong and
Chien-Sheng Wu
- Abstract要約: 理想的な要約モデルは、roteによる参照トレーニング要約を覚えることなく、新しい要約価値のあるコンテンツに一般化すべきである。
本稿では,参照テストサマリーとトレーニングサマリーの語彙的類似性に基づいて,テストセットを分割し,詳細な評価プロトコルを提案する。
- 参考スコア(独自算出の注目度): 131.80860903537172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ideal summarization models should generalize to novel summary-worthy content
without remembering reference training summaries by rote. However, a single
average performance score on the entire test set is inadequate in determining
such model competencies. We propose a fine-grained evaluation protocol by
partitioning a test set based on the lexical similarity of reference test
summaries with training summaries. We observe up to a 5x (1.2x) difference in
ROUGE-2 (entity recall) scores between the subsets with the lowest and highest
similarity. Next, we show that such training repetitions also make a model
vulnerable to rote learning, reproducing data artifacts such as factual errors,
especially when reference test summaries are lexically close to training
summaries. Consequently, we propose to limit lexical repetitions in training
summaries during both supervised fine-tuning and likelihood calibration stages
to improve the performance on novel test cases while retaining average
performance. Our automatic and human evaluations on novel test subsets and
recent news articles show that limiting lexical repetitions in training
summaries can prevent rote learning and improve generalization.
- Abstract(参考訳): 理想的な要約モデルは、roteによる参照トレーニング要約を記憶せずに、新しい要約コンテンツに一般化すべきである。
しかし、テストセット全体の平均パフォーマンススコアは、そのようなモデル能力を決定するのに不十分である。
本稿では,参照テストサマリーとトレーニングサマリーの語彙的類似性に基づいて,テストセットを分割し,詳細な評価プロトコルを提案する。
我々は、最も低い類似度と最も高い類似度を持つ部分集合間で、rouge-2 (entity recall)スコアの最大5倍 (1.2x) の差を観察した。
次に,このようなトレーニング繰り返しによって,実ミスなどのデータアーティファクトを再現する,ロート学習に脆弱なモデルがもたらされることを示す。
そこで本研究では,教師付き微調整および適度校正段階のトレーニングサマリーにおける語彙反復を制限し,平均性能を維持しつつ,新規テストケースの性能を向上させることを提案する。
新しいテストサブセットと最近のニュース記事に対する自動的および人間的評価は、トレーニング要約における語彙反復を制限することで、ロート学習を防ぎ、一般化を改善できることを示している。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Learning with Rejection for Abstractive Text Summarization [42.15551472507393]
本稿では,拒絶学習に基づく抽象的な要約のための学習目標を提案する。
本手法は, 自動評価と人的評価において, 生成した要約の事実性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-02-16T19:07:08Z) - Uncontrolled Lexical Exposure Leads to Overestimation of Compositional
Generalization in Pretrained Models [31.573015421633155]
事前学習データへの露出は分布制御を損なう可能性があると我々は主張する。
いずれのセットアップもT5の一般化性能を低下させる。
論文 参考訳(メタデータ) (2022-12-21T05:02:08Z) - Correcting Diverse Factual Errors in Abstractive Summarization via
Post-Editing and Language Model Infilling [56.70682379371534]
提案手法は, 誤要約の修正において, 従来手法よりもはるかに優れていることを示す。
我々のモデルであるFactEditは、CNN/DMで11点、XSumで31点以上のファクトリティスコアを改善する。
論文 参考訳(メタデータ) (2022-10-22T07:16:19Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - CLIFF: Contrastive Learning for Improving Faithfulness and Factuality in
Abstractive Summarization [6.017006996402699]
我々は、与えられた記事に忠実で事実に整合した抽象的な要約を生成することを研究する。
参照要約を正のトレーニングデータとして活用し、誤要約を負のトレーニングデータとして自動生成し、両者を区別し易い要約システムを訓練する、新しいコントラスト学習定式化を提案する。
論文 参考訳(メタデータ) (2021-09-19T20:05:21Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。