論文の概要: QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation
- arxiv url: http://arxiv.org/abs/2210.04320v1
- Date: Sun, 9 Oct 2022 19:00:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:45:09.874100
- Title: QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation
- Title(参考訳): QAScore -- 質問生成評価のための教師なしの基準
- Authors: Tianbo Ji, Chenyang Lyu, Gareth Jones, Liting Zhou, Yvette Graham
- Abstract要約: 質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。
QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
- 参考スコア(独自算出の注目度): 6.697751970080859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question Generation (QG) aims to automate the task of composing questions for
a passage with a set of chosen answers found within the passage. In recent
years, the introduction of neural generation models has resulted in substantial
improvements of automatically generated questions in terms of quality,
especially compared to traditional approaches that employ manually crafted
heuristics. However, the metrics commonly applied in QG evaluations have been
criticized for their low agreement with human judgement. We therefore propose a
new reference-free evaluation metric that has the potential to provide a better
mechanism for evaluating QG systems, called QAScore. Instead of fine-tuning a
language model to maximize its correlation with human judgements, QAScore
evaluates a question by computing the cross entropy according to the
probability that the language model can correctly generate the masked words in
the answer to that question. Furthermore, we conduct a new crowd-sourcing human
evaluation experiment for the QG evaluation to investigate how QAScore and
other metrics can correlate with human judgements. Experiments show that
QAScore obtains a stronger correlation with the results of our proposed human
evaluation method compared to existing traditional word-overlap-based metrics
such as BLEU and ROUGE, as well as the existing pretrained-model-based metric
BERTScore.
- Abstract(参考訳): 問合せ生成(QG)は,問合せの中から選択された回答の集合を用いて,問合せ作成作業を自動化することを目的とする。
近年、ニューラルジェネレーションモデルの導入は、特に手作業によるヒューリスティックを用いた従来のアプローチと比較して、品質の観点から自動的に生成される質問の大幅な改善をもたらした。
しかし、QG評価に一般的に適用される指標は、人間の判断と低い一致で批判されている。
そこで我々は,QGシステム評価のためのQAScoreと呼ばれる優れたメカニズムを提供する可能性を秘めた新しい基準フリー評価指標を提案する。
人間の判断との相関を最大化するために言語モデルを微調整する代わりに、QAScoreは、言語モデルがその質問に対する回答でマスクされた単語を正しく生成できる確率に応じて、クロスエントロピーを計算することで質問を評価する。
さらに、QG評価のための新たなクラウドソーシング人間評価実験を行い、QAScoreなどの指標が人間の判断とどのように相関するかを検討する。
実験の結果,従来のBLEUやROUGEなどの単語オーバーラップに基づくメトリクスや,既存の事前学習モデルに基づくBERTScoreと比較して,QAScoreは,提案手法と強い相関関係が得られた。
関連論文リスト
- MIRROR: A Novel Approach for the Automated Evaluation of Open-Ended Question Generation [0.4857223913212445]
自動質問生成システムによって生成される質問に対する評価プロセスを自動化する新しいシステムMIRRORを提案する。
その結果,MIRRORと呼ばれるフィードバックに基づく手法を用いることで,人間の評価指標,すなわち妥当性,適切性,新規性,複雑性,文法性のスコアが向上した。
論文 参考訳(メタデータ) (2024-10-16T12:24:42Z) - LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - Automatic Answerability Evaluation for Question Generation [32.1067137848404]
提案するPMANは,提案した質問が参照回答によって答えられるかどうかを評価するための,新しい自動評価指標である。
GPTに基づくQGモデルの実装は,回答可能な質問を生成する上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-22T00:13:07Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Evaluation of Question Generation Needs More References [7.876222232341623]
我々は、より堅牢なQG評価のために、基準質問を言い換えることを提案する。
GPT-3のような大規模言語モデルを用いて,意味論的・統語論的に多様な質問を作成した。
論文 参考訳(メタデータ) (2023-05-26T04:40:56Z) - Learning Answer Generation using Supervision from Automatic Question
Answering Evaluators [98.9267570170737]
我々は、自動QA評価モデル(GAVA)の監督を用いたGenQAのための新しいトレーニングパラダイムを提案する。
提案手法を2つの学術的, 1つの産業的データセット上で評価し, 過去の技術状況に対して, 回答精度を大幅に向上させた。
論文 参考訳(メタデータ) (2023-05-24T16:57:04Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。