論文の概要: FEQA: A Question Answering Evaluation Framework for Faithfulness
Assessment in Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2005.03754v1
- Date: Thu, 7 May 2020 21:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:25:17.124987
- Title: FEQA: A Question Answering Evaluation Framework for Faithfulness
Assessment in Abstractive Summarization
- Title(参考訳): FEQA:抽象要約における忠実度評価のための質問応答評価フレームワーク
- Authors: Esin Durmus and He He and Mona Diab
- Abstract要約: 我々は,その資料から生成した要約の忠実さを評価する問題に取り組む。
現在のモデルでは、抽象性と忠実性のトレードオフが示されています。
本稿では,信頼度を基準とした質問応答(QA)尺度を提案する。
- 参考スコア(独自算出の注目度): 34.2456005415483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural abstractive summarization models are prone to generate content
inconsistent with the source document, i.e. unfaithful. Existing automatic
metrics do not capture such mistakes effectively. We tackle the problem of
evaluating faithfulness of a generated summary given its source document. We
first collected human annotations of faithfulness for outputs from numerous
models on two datasets. We find that current models exhibit a trade-off between
abstractiveness and faithfulness: outputs with less word overlap with the
source document are more likely to be unfaithful. Next, we propose an automatic
question answering (QA) based metric for faithfulness, FEQA, which leverages
recent advances in reading comprehension. Given question-answer pairs generated
from the summary, a QA model extracts answers from the document; non-matched
answers indicate unfaithful information in the summary. Among metrics based on
word overlap, embedding similarity, and learned language understanding models,
our QA-based metric has significantly higher correlation with human
faithfulness scores, especially on highly abstractive summaries.
- Abstract(参考訳): ニューラルネットワークの抽象的要約モデルは、ソース文書と矛盾するコンテンツを生成する傾向にある。
既存の自動メトリクスはそのようなミスを効果的に捉えない。
我々は,その資料から生成した要約の忠実さを評価する問題に取り組む。
まず,2つのデータセット上の多数のモデルからの出力に対して忠実な人間のアノテーションを収集した。
現在のモデルでは、抽象性と忠実性の間にトレードオフがあることが分かっています。
次に,近年の読解理解の進歩を生かした,信頼度に基づく自動質問応答(QA)尺度FEQAを提案する。
要約から生成された質問と回答のペアが与えられた場合、QAモデルは文書から回答を抽出する。
単語重複、埋め込み類似性、学習言語理解モデルに基づくメトリクスのうち、我々のQAベースのメトリクスは、特に抽象的な要約において、人間の忠実度スコアと著しく高い相関を持つ。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - STORYSUMM: Evaluating Faithfulness in Story Summarization [31.94902013480574]
本稿では,局所的な忠実度ラベルと誤り説明を含む短編を収録した新しいデータセットであるSTORYSUMMを紹介する。
このベンチマークは、あるメソッドが挑戦的な不整合を検出できるかどうかをテストする評価方法である。
論文 参考訳(メタデータ) (2024-07-09T02:06:30Z) - On Context Utilization in Summarization with Large Language Models [83.84459732796302]
大きな言語モデル(LLM)は抽象的な要約タスクに優れ、流動的で関連する要約を提供する。
最近の進歩は、100kトークンを超える長期入力コンテキストを扱う能力を拡張している。
要約における文脈利用と位置バイアスに関する最初の総合的研究を行う。
論文 参考訳(メタデータ) (2023-10-16T16:45:12Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - MQAG: Multiple-choice Question Answering and Generation for Assessing
Information Consistency in Summarization [55.60306377044225]
最先端の要約システムは高度に流動的な要約を生成することができる。
しかし、これらの要約には、情報源に存在しない事実上の矛盾や情報が含まれている可能性がある。
本稿では,ソース情報と要約情報を直接比較する,標準的な情報理論に基づく代替手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T23:08:25Z) - HaRiM$^+$: Evaluating Summary Quality with Hallucination Risk [0.6617666829632144]
本稿では,トークン確率に基づいて幻覚リスクを計算するために,既成の要約モデルのみを必要とする基準自由度HaRiM+を提案する。
要約品質評価において,HaRiM+は,FRANK,QAGS,SummEvalの3つの要約品質アノテーションセットに対して,人間の判断に対する最先端の相関を記録する。
論文 参考訳(メタデータ) (2022-11-22T09:36:41Z) - Towards Improving Faithfulness in Abstractive Summarization [37.19777407790153]
本稿では,抽象的な要約における忠実度を改善するために,FES(Fithfulness Enhanced Summarization Model)を提案する。
我々のモデルはCNN/DMとXSumの実験において強いベースラインを上回ります。
論文 参考訳(メタデータ) (2022-10-04T19:52:09Z) - Extractive is not Faithful: An Investigation of Broad Unfaithfulness
Problems in Extractive Summarization [91.86501509439815]
本研究は,抽出要約に現れる5種類の広い不信問題を持つ類型論を定義する。
我々は16の多様な抽出システムによって生成された1600の英語の要約の中から、これらの問題をラベル付けするよう人間に求めている。
これらの問題を自動検出するために,要約のための既存の5つの信頼度評価指標は,人間の判断と相関が低いことがわかった。
論文 参考訳(メタデータ) (2022-09-08T03:25:18Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。