論文の概要: BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics
- arxiv url: http://arxiv.org/abs/2212.09955v2
- Date: Mon, 5 Jun 2023 01:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 03:35:01.045588
- Title: BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics
- Title(参考訳): BUMP: 信心度メタ評価のための不信心最小ペアのベンチマーク
- Authors: Liang Ma, Shuyang Cao, Robert L. Logan IV, Di Lu, Shihao Ran, Ke
Zhang, Joel Tetreault, Alejandro Jaimes
- Abstract要約: 不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
- 参考スコア(独自算出の注目度): 70.52570641514146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of automatic faithfulness metrics for summarization has
produced a need for benchmarks to evaluate them. While existing benchmarks
measure the correlation with human judgements of faithfulness on
model-generated summaries, they are insufficient for diagnosing whether metrics
are: 1) consistent, i.e., indicate lower faithfulness as errors are introduced
into a summary, 2) effective on human-written texts, and 3) sensitive to
different error types (as summaries can contain multiple errors). To address
these needs, we present a benchmark of unfaithful minimal pairs (BUMP), a
dataset of 889 human-written, minimally different summary pairs, where a single
error is introduced to a summary from the CNN/DailyMail dataset to produce an
unfaithful summary. We find BUMP complements existing benchmarks in a number of
ways: 1) the summaries in BUMP are harder to discriminate and less probable
under SOTA summarization models, 2) unlike non-pair-based datasets, BUMP can be
used to measure the consistency of metrics, and reveals that the most
discriminative metrics tend not to be the most consistent, and 3) unlike
datasets containing generated summaries with multiple errors, BUMP enables the
measurement of metrics' performance on individual error types.
- Abstract(参考訳): 要約のための自動忠実度指標の拡散は、それらを評価するためのベンチマークの必要性を生み出した。
既存のベンチマークでは、モデル生成サマリーの忠実性判定との相関が測定されているが、メトリクスかどうかの診断には不十分である。
1) 一貫性、すなわち、エラーが要約に導入されたとき、より低い忠実さを示す。
2)人文テキストの有効利用,及び
3)異なるエラータイプに敏感(要約には複数のエラーが含まれている)。
これらのニーズに対処するため,我々は,cnn/dailymailデータセットから要約文に1つのエラーを導入することで不適切な要約を生成する,859の人間が記述した,最小限の要約ペアのデータセットであるunfaithful minimal pairs (bump)のベンチマークを示す。
BUMPはいくつかの方法で既存のベンチマークを補完する。
1) バンプの要約は, sota要約モデルでは判別が困難であり, 可能性も低い。
2)非ペア型データセットとは異なり、bumpはメトリクスの一貫性を測定するために使用することができ、最も差別的なメトリクスが最も一貫性がない傾向があることを明らかにする。
3) 複数のエラーを含む生成されたサマリーを含むデータセットとは異なり、bumpは個々のエラータイプに対するメトリクスのパフォーマンスを測定することができる。
関連論文リスト
- STORYSUMM: Evaluating Faithfulness in Story Summarization [31.94902013480574]
本稿では,局所的な忠実度ラベルと誤り説明を含む短編を収録した新しいデータセットであるSTORYSUMMを紹介する。
このベンチマークは、あるメソッドが挑戦的な不整合を検出できるかどうかをテストする評価方法である。
論文 参考訳(メタデータ) (2024-07-09T02:06:30Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。
本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文 参考訳(メタデータ) (2022-05-25T15:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。