論文の概要: Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary
- arxiv url: http://arxiv.org/abs/2010.00490v3
- Date: Mon, 26 Jul 2021 18:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:12:24.317115
- Title: Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary
- Title(参考訳): 要約の内容品質評価のための自動指標としての質問応答
- Authors: Daniel Deutsch, Tania Bedrax-Weiss, Dan Roth
- Abstract要約: 質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
- 参考スコア(独自算出の注目度): 65.37544133256499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A desirable property of a reference-based evaluation metric that measures the
content quality of a summary is that it should estimate how much information
that summary has in common with a reference. Traditional text overlap based
metrics such as ROUGE fail to achieve this because they are limited to matching
tokens, either lexically or via embeddings. In this work, we propose a metric
to evaluate the content quality of a summary using question-answering (QA).
QA-based methods directly measure a summary's information overlap with a
reference, making them fundamentally different than text overlap metrics. We
demonstrate the experimental benefits of QA-based metrics through an analysis
of our proposed metric, QAEval. QAEval out-performs current state-of-the-art
metrics on most evaluations using benchmark datasets, while being competitive
on others due to limitations of state-of-the-art models. Through a careful
analysis of each component of QAEval, we identify its performance bottlenecks
and estimate that its potential upper-bound performance surpasses all other
automatic metrics, approaching that of the gold-standard Pyramid Method.
- Abstract(参考訳): 要約の内容の質を測る基準ベース評価尺度の望ましい特性は、その要約が参照と共通している情報の量を評価することである。
ROUGEのような従来のテキストオーバーラップベースのメトリクスは、語彙的にも埋め込みによっても一致するトークンに制限されているため、これを達成できない。
本研究では,質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
QAベースの手法は、要約の情報と参照の重複を直接測定し、テキストの重複メトリクスと根本的に異なる。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
QAEvalは、ほとんどの評価において、ベンチマークデータセットを使用して現在の最先端メトリクスを上回ります。
QAEvalの各コンポーネントを慎重に分析することにより、パフォーマンスボトルネックを特定し、その潜在的な上界性能が、ゴールドスタンダードのピラミッド法に近づき、他のすべての自動指標を超えると推定する。
関連論文リスト
- Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文 参考訳(メタデータ) (2022-04-21T15:43:45Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - WIDAR -- Weighted Input Document Augmented ROUGE [26.123086537577155]
提案する指標WIDARは,基準要約の品質に応じて評価スコアを適応させるように設計されている。
提案指標は, 整合性, 整合性, 流速性, 人的判断の関連性において, ROUGEよりも26%, 76%, 82%, 15%の相関関係を示した。
論文 参考訳(メタデータ) (2022-01-23T14:40:42Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Re-evaluating Evaluation in Text Summarization [77.4601291738445]
トップスコアシステム出力を用いたテキスト要約の評価手法を再評価する。
古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。
論文 参考訳(メタデータ) (2020-10-14T13:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。