論文の概要: Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors
- arxiv url: http://arxiv.org/abs/2205.12854v1
- Date: Wed, 25 May 2022 15:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:50:31.351687
- Title: Understanding Factual Errors in Summarization: Errors, Summarizers,
Datasets, Error Detectors
- Title(参考訳): 要約におけるFactual Errorsの理解--Errors, Summarizers, Datasets, Error Detectors
- Authors: Liyan Tang, Tanya Goyal, Alexander R. Fabbri, Philippe Laban, Jiacheng
Xu, Semih Yahvuz, Wojciech Kry\'sci\'nski, Justin F. Rousseau, Greg Durrett
- Abstract要約: 我々は、注釈付き要約出力の9つのデータセットからラベル付き事実性エラーを収集する。
次に、ラベル付きエラータイプを単一の分類に統一し、データセットのエラーをそれぞれ共有ラベル付き空間に投影する。
このベンチマークでは、最先端の5つのエラー検出手法を対比する。
- 参考スコア(独自算出の注目度): 101.41859030750364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The propensity of abstractive summarization systems to make factual errors
has been the subject of significant study, including work on models to detect
factual errors and annotation of errors in current systems' outputs. However,
the ever-evolving nature of summarization systems, error detectors, and
annotated benchmarks make factuality evaluation a moving target; it is hard to
get a clear picture of how techniques compare. In this work, we collect labeled
factuality errors from across nine datasets of annotated summary outputs and
stratify them in a new way, focusing on what kind of base summarization model
was used. To support finer-grained analysis, we unify the labeled error types
into a single taxonomy and project each of the datasets' errors into this
shared labeled space. We then contrast five state-of-the-art error detection
methods on this benchmark. Our findings show that benchmarks built on modern
summary outputs (those from pre-trained models) show significantly different
results than benchmarks using pre-Transformer models. Furthermore, no one
factuality technique is superior in all settings or for all error types,
suggesting that system developers should take care to choose the right system
for their task at hand.
- Abstract(参考訳): 事実的誤りを検出するための抽象的要約システムの普及は、現在のシステム出力における事実的エラーの検出モデルやエラーのアノテーションなど、重要な研究の対象となっている。
しかし,要約システム,誤り検出器,注釈付ベンチマークの絶え間なく進化する性質は,事実性評価を目標としている。
本研究では,注釈付き要約出力の9つのデータセットからラベル付き事実性誤差を収集し,それらを新しい方法で階層化する。
よりきめ細かい分析をサポートするため、ラベル付きエラータイプを単一の分類に統一し、データセットのエラーそれぞれを共有ラベル付き空間に投影する。
このベンチマークでは5つの最先端エラー検出手法を比較した。
以上の結果から,現代の要約結果に基づくベンチマーク(事前学習モデルによる)は,事前変換モデルを用いたベンチマークとは大きく異なる結果を示した。
さらに、すべての設定またはすべてのエラータイプにおいて、すべての事実性技術が優れているわけではないため、システム開発者は、目の前のタスクに適したシステムを選択するように注意すべきである。
関連論文リスト
- Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - Generalizable Error Modeling for Human Data Annotation: Evidence From an Industry-Scale Search Data Annotation Program [0.0]
本稿では,検索関連アノテーションタスクにおける潜在的なエラーを検出するために訓練された予測誤差モデルを提案する。
そこで本研究では,中程度のモデル性能(AUC=0.65-0.75)で誤差を予測できることを示す。
本稿では,高い予測誤差確率のタスクを優先することで,修正されたアノテーションエラーの量を大幅に増加させるという,監査の文脈におけるモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-10-08T21:21:19Z) - BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文 参考訳(メタデータ) (2022-12-20T02:17:30Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Correcting Diverse Factual Errors in Abstractive Summarization via
Post-Editing and Language Model Infilling [56.70682379371534]
提案手法は, 誤要約の修正において, 従来手法よりもはるかに優れていることを示す。
我々のモデルであるFactEditは、CNN/DMで11点、XSumで31点以上のファクトリティスコアを改善する。
論文 参考訳(メタデータ) (2022-10-22T07:16:19Z) - Label-Descriptive Patterns and their Application to Characterizing
Classification Errors [31.272875287136426]
最先端のディープラーニング手法は多くのタスクで人間のようなパフォーマンスを達成するが、それでもエラーを犯す。
これらのエラーを容易に解釈可能な言葉で特徴付けることは、モデルが体系的なエラーを起こす傾向にあるかどうかの洞察を与えるだけでなく、モデルを実行し改善する方法を与える。
本稿では,予測の正しさに応じて分割された入力データを簡潔に記述するパターンの小さなセットをマイニングすることにより,任意の分類器に対して,任意の分類を行うことができる手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T19:42:21Z) - Understanding Factuality in Abstractive Summarization with FRANK: A
Benchmark for Factuality Metrics [17.677637487977208]
現代の要約モデルは、高度に流れるが、実際には信頼できない出力を生成する。
一般的なベンチマークがないため、自動生成したサマリーの事実性を測定するためのメトリクスを比較することはできない。
我々は,事実誤りの類型を考案し,それを用いて,最先端の要約システムから生成された要約の人間のアノテーションを収集する。
論文 参考訳(メタデータ) (2021-04-27T17:28:07Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。