論文の概要: SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References
- arxiv url: http://arxiv.org/abs/2309.12250v1
- Date: Thu, 21 Sep 2023 16:51:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:09:03.201708
- Title: SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References
- Title(参考訳): 複数肯定的・否定的基準を用いた質問応答自動評価
- Authors: Matteo Gabburo, Siddhant Garg, Rik Koncel Kedziorski, Alessandro
Moschitti
- Abstract要約: SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
- 参考スコア(独自算出の注目度): 73.67707138779245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation of QA systems is very challenging and expensive, with the most
reliable approach being human annotations of correctness of answers for
questions. Recent works (AVA, BEM) have shown that transformer LM encoder based
similarity metrics transfer well for QA evaluation, but they are limited by the
usage of a single correct reference answer. We propose a new evaluation metric:
SQuArE (Sentence-level QUestion AnsweRing Evaluation), using multiple reference
answers (combining multiple correct and incorrect references) for sentence-form
QA. We evaluate SQuArE on both sentence-level extractive (Answer Selection) and
generative (GenQA) QA systems, across multiple academic and industrial
datasets, and show that it outperforms previous baselines and obtains the
highest correlation with human annotations.
- Abstract(参考訳): QAシステムの評価は非常に困難で高価であり、最も信頼性の高いアプローチは質問に対する回答の正しさに関する人間のアノテーションである。
最近の研究 (AVA, BEM) では, トランスフォーマーLMエンコーダによる類似度指標の転送はQA評価に適しているが, 単一の正しい参照応答を使用することによって制限されている。
そこで本研究では,複数の基準回答(複数の正解と誤参照の組み合わせ)を文型qaに用いた新しい評価指標であるsquare(sentence-level question answering evaluation)を提案する。
文レベルの抽出(回答選択)と生成(生成)のQAシステムにおいて,複数の学術的および産業的データセットに対してSQuArEを評価し,従来のベースラインを上回り,人間のアノテーションとの相関性が高いことを示す。
関連論文リスト
- LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - RQUGE: Reference-Free Metric for Evaluating Question Generation by
Answering the Question [29.18544401904503]
そこで我々は,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。
我々は,RQUGEが基準質問に頼らずに,人間の判断と高い相関関係を持つことを実証した。
論文 参考訳(メタデータ) (2022-11-02T21:10:09Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。