論文の概要: RQUGE: Reference-Free Metric for Evaluating Question Generation by
Answering the Question
- arxiv url: http://arxiv.org/abs/2211.01482v1
- Date: Wed, 2 Nov 2022 21:10:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 11:56:42.067142
- Title: RQUGE: Reference-Free Metric for Evaluating Question Generation by
Answering the Question
- Title(参考訳): RQUGE:質問に対する回答による質問生成評価のための基準フリーメトリクス
- Authors: Alireza Mohammadshahi and Thomas Scialom and Majid Yazdani and Pouya
Yanki and Angela Fan and James Henderson and Marzieh Saeidi
- Abstract要約: 本稿では,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。
RQUGEは、基準問題に頼らずに、人間の判断と高い相関関係を持つ。
RQUGEは、いくつかの敵の汚職に対して、はるかに堅牢であることを示す。
- 参考スコア(独自算出の注目度): 29.18544401904503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing metrics for evaluating the quality of automatically generated
questions such as BLEU, ROUGE, BERTScore, and BLEURT compare the reference and
predicted questions, providing a high score when there is a considerable
lexical overlap or semantic similarity between the candidate and the reference
questions. This approach has two major shortcomings. First, we need expensive
human-provided reference questions. Second, it penalises valid questions that
may not have high lexical or semantic similarity to the reference questions. In
this paper, we propose a new metric, RQUGE, based on the answerability of the
candidate question given the context. The metric consists of a
question-answering and a span scorer module, in which we use pre-trained models
from the existing literature, and therefore, our metric can be used without
further training. We show that RQUGE has a higher correlation with human
judgment without relying on the reference question. RQUGE is shown to be
significantly more robust to several adversarial corruptions. Additionally, we
illustrate that we can significantly improve the performance of QA models on
out-of-domain datasets by fine-tuning on the synthetic data generated by a
question generation model and re-ranked by RQUGE.
- Abstract(参考訳): bleu、rouge、bertscore、bleurtなどの自動生成質問の品質評価のための既存のメトリクスは、参照と予測された質問を比較し、候補と参照質問の間に語彙的重複や意味的類似性がある場合に高いスコアを与える。
このアプローチには2つの大きな欠点がある。
まず、人間が提供する高価な参照質問が必要です。
第二に、参照質問と高い語彙的あるいは意味的類似性を持たない有効な質問をペナライズする。
本稿では,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。
このメトリックは質問応答とスパンスコアモジュールで構成されており、既存の文献から事前学習されたモデルを用いており、そのため、我々のメトリックはさらなるトレーニングなしで利用できる。
RQUGEは基準質問に頼らずに人間の判断と高い相関性を有することを示す。
RQUGEは、いくつかの敵の腐敗に対して、はるかに堅牢であることが示されている。
さらに,質問生成モデルが生成し,RQUGEが再ランク付けした合成データを微調整することにより,ドメイン外のデータセット上でのQAモデルの性能を大幅に向上させることができることを示す。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Reference-based Metrics Disprove Themselves in Question Generation [17.83616985138126]
人手による参照を用いることで、参照ベースのメトリクスの有効性を保証できないことがわかった。
優れた測定基準は、生成した質問に比較して、人間公認の質問を格付けすることが期待されている。
本研究では, 自然性, 応答性, 複雑性などの多次元的基準からなる基準自由度尺度を提案する。
論文 参考訳(メタデータ) (2024-03-18T20:47:10Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - QRelScore: Better Evaluating Generated Questions with Deeper
Understanding of Context-aware Relevance [54.48031346496593]
我々は、$underlinetextbfRel$evance評価指標のコンテキスト対応評価指標である$textbfQRelScore$を提案する。
BERTやGPT2のような既製の言語モデルに基づいて、QRelScoreは単語レベルの階層マッチングと文レベルのプロンプトベースの生成の両方を採用している。
既存の測定値と比較すると、QRelScoreは人間による判断と高い相関性を持ちながら、敵のサンプルに対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2022-04-29T07:39:53Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。