論文の概要: QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization
- arxiv url: http://arxiv.org/abs/2112.08542v1
- Date: Thu, 16 Dec 2021 00:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:13:32.184689
- Title: QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization
- Title(参考訳): QAFactEval: 要約のためのQAに基づくFactual Consistency Evaluationの改善
- Authors: Alexander R. Fabbri, Chien-Sheng Wu, Wenhao Liu, Caiming Xiong
- Abstract要約: QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 116.56171113972944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Factual consistency is an essential quality of text summarization models in
practical settings. Existing work in evaluating this dimension can be broadly
categorized into two lines of research, entailment-based metrics and question
answering (QA)-based metrics. However, differing experimental setups presented
in recent work lead to contrasting conclusions as to which paradigm performs
best. In this work, we conduct an extensive comparison of entailment and
QA-based metrics, demonstrating that carefully choosing the components of a
QA-based metric is critical to performance. Building on those insights, we
propose an optimized metric, which we call QAFactEval, that leads to a 15%
average improvement over previous QA-based metrics on the SummaC factual
consistency benchmark. Our solution improves upon the best-performing
entailment-based metric and achieves state-of-the-art performance on this
benchmark. Furthermore, we find that QA-based and entailment-based metrics
offer complementary signals and combine the two into a single, learned metric
for further performance boost. Through qualitative and quantitative analyses,
we point to question generation and answerability classification as two
critical components for future work in QA-based metrics.
- Abstract(参考訳): ファクト一貫性は、実践的な設定におけるテキスト要約モデルの本質的な品質である。
この次元を評価するための既存の作業は、エンテーメントベースのメトリクスと質問応答(QA)ベースのメトリクスの2つのラインに大別することができる。
しかし、最近の研究で示された実験的な設定の違いは、どのパラダイムが最善を尽くすかについての結論の対比につながる。
本研究は,QAに基づくメトリクスの包括的比較を行い,QAに基づくメトリクスの構成要素を慎重に選択することが性能に重要なことを実証する。
これらの知見に基づいて、我々はQAFactEvalと呼ばれる最適化されたメトリクスを提案し、これはSummaCの事実整合性ベンチマークにおける以前のQAベースのメトリクスよりも15%平均的な改善をもたらす。
提案手法は,ベストパフォーマンスのエンテーメント基準を改良し,このベンチマークの最先端性能を実現する。
さらに,QAベースとエンテーメントベースのメトリクスが相補的な信号を提供し,これら2つを1つの学習されたメトリクスに組み合わせることで,さらなるパフォーマンス向上が期待できる。
質的および定量的な分析を通じて、QAベースのメトリクスの今後の研究において、質問生成と回答可能性の分類を2つの重要な要素として挙げる。
関連論文リスト
- A Step Towards Mixture of Grader: Statistical Analysis of Existing Automatic Evaluation Metrics [6.571049277167304]
既存の評価指標の統計について検討し,その限界をよりよく理解する。
潜在的な解決策として、Mixture Of Graderが自動QA評価器の品質を向上する可能性について論じる。
論文 参考訳(メタデータ) (2024-10-13T22:10:42Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文 参考訳(メタデータ) (2022-04-21T15:43:45Z) - DirectQE: Direct Pretraining for Machine Translation Quality Estimation [41.187833219223336]
データ品質とトレーニングの目的の両方において,予測器と推定器の間にはギャップがある,と我々は主張する。
我々は、QEタスクの直接事前学習を提供するDirectQEと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-15T06:18:49Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。