論文の概要: Automatic Answerability Evaluation for Question Generation
- arxiv url: http://arxiv.org/abs/2309.12546v2
- Date: Mon, 26 Feb 2024 04:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 21:54:13.862289
- Title: Automatic Answerability Evaluation for Question Generation
- Title(参考訳): 質問生成のための自動応答性評価
- Authors: Zifan Wang, Kotaro Funakoshi, Manabu Okumura
- Abstract要約: 提案するPMANは,提案した質問が参照回答によって答えられるかどうかを評価するための,新しい自動評価指標である。
GPTに基づくQGモデルの実装は,回答可能な質問を生成する上で,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 32.1067137848404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional automatic evaluation metrics, such as BLEU and ROUGE, developed
for natural language generation (NLG) tasks, are based on measuring the n-gram
overlap between the generated and reference text. These simple metrics may be
insufficient for more complex tasks, such as question generation (QG), which
requires generating questions that are answerable by the reference answers.
Developing a more sophisticated automatic evaluation metric, thus, remains an
urgent problem in QG research. This work proposes PMAN (Prompting-based Metric
on ANswerability), a novel automatic evaluation metric to assess whether the
generated questions are answerable by the reference answers for the QG tasks.
Extensive experiments demonstrate that its evaluation results are reliable and
align with human evaluations. We further apply our metric to evaluate the
performance of QG models, which shows that our metric complements conventional
metrics. Our implementation of a GPT-based QG model achieves state-of-the-art
performance in generating answerable questions.
- Abstract(参考訳): 自然言語生成(nlg)タスク用に開発されたbleuやrougeなどの従来の自動評価指標は、生成されたテキストと参照テキストのn-gram重なりの測定に基づいている。
これらの単純なメトリクスは、質問生成(QG)のようなより複雑なタスクには不十分であり、参照された回答によって答えられる質問を生成する必要がある。
より高度な自動評価指標を開発することは、QG研究において緊急の問題である。
本研究は,QGタスクの基準回答によって生成した質問が答えられるかどうかを評価するための,新しい自動評価指標であるPMAN(Prompting-based Metric on ANswerability)を提案する。
大規模な実験により、評価結果は信頼性が高く、人間の評価と一致していることが示された。
さらに,QGモデルの性能評価に指標を適用し,従来の指標を補完することを示す。
GPTに基づくQGモデルの実装は,回答可能な質問を生成する上で,最先端のパフォーマンスを実現する。
関連論文リスト
- QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation [9.001613702628253]
人間の評価は質問生成(QG)の分野で広く使われており、自動メトリクスのゴールドスタンダードとして機能している。
統一された評価基準が欠如しており、QGモデルと自動メトリクスの両方の一貫性のある評価を妨げている。
質問生成のための多次元評価ベンチマークであるQGEvalを提案する。
論文 参考訳(メタデータ) (2024-06-09T09:51:55Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Evaluation of Question Generation Needs More References [7.876222232341623]
我々は、より堅牢なQG評価のために、基準質問を言い換えることを提案する。
GPT-3のような大規模言語モデルを用いて,意味論的・統語論的に多様な質問を作成した。
論文 参考訳(メタデータ) (2023-05-26T04:40:56Z) - QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。
QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-10-09T19:00:39Z) - Quiz Design Task: Helping Teachers Create Quizzes with Automated
Question Generation [87.34509878569916]
本稿では,教師が読解クイズを自動生成するためのユースケースに焦点を当てた。
本研究は,クイズを構築中の教師が質問を受講し,それに応じるか,あるいは拒否するかのどちらかを理由として行う。
論文 参考訳(メタデータ) (2022-05-03T18:59:03Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z) - Towards Automatic Generation of Questions from Long Answers [11.198653485869935]
本稿では,従来のAQGシステムの性能評価のための新しい評価ベンチマークを提案する。
既存のAQG法の性能は,回答の長さが大きくなるにつれて著しく低下することを示した。
トランスフォーマーに基づく手法は, 従来のAQG法よりも, 自己評価や人的評価の点で優れていた。
論文 参考訳(メタデータ) (2020-04-10T16:45:08Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。