論文の概要: Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2204.10206v1
- Date: Thu, 21 Apr 2022 15:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:23:49.569528
- Title: Benchmarking Answer Verification Methods for Question Answering-Based
Summarization Evaluation Metrics
- Title(参考訳): 質問応答に基づく要約評価指標のベンチマーク回答検証手法
- Authors: Daniel Deutsch and Dan Roth
- Abstract要約: 質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
- 参考スコア(独自算出の注目度): 74.28810048824519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question answering-based summarization evaluation metrics must automatically
determine whether the QA model's prediction is correct or not, a task known as
answer verification. In this work, we benchmark the lexical answer verification
methods which have been used by current QA-based metrics as well as two more
sophisticated text comparison methods, BERTScore and LERC. We find that LERC
out-performs the other methods in some settings while remaining statistically
indistinguishable from lexical overlap in others. However, our experiments
reveal that improved verification performance does not necessarily translate to
overall QA-based metric quality: In some scenarios, using a worse verification
method -- or using none at all -- has comparable performance to using the best
verification method, a result that we attribute to properties of the datasets.
- Abstract(参考訳): 質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。
本研究では,従来のQAベースのメトリクスと,BERTScoreとLERCの2つの高度なテキスト比較手法を用いて,語彙的回答検証手法をベンチマークする。
LERCは,一部の設定では他の手法よりも優れており,他の設定では語彙重複と統計的に区別できない。
しかし、我々の実験は、検証性能の改善が必ずしもQAベースのメトリクス品質に必ずしも変換されないことを明らかにしている。 シナリオによっては、悪い検証方法(または全く使わない)を使用することは、データセットの特性に起因する結果である最高の検証方法と同等のパフォーマンスを持つ。
関連論文リスト
- How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。