論文の概要: Automatic Answerability Evaluation for Question Generation
- arxiv url: http://arxiv.org/abs/2309.12546v1
- Date: Fri, 22 Sep 2023 00:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 16:20:53.148011
- Title: Automatic Answerability Evaluation for Question Generation
- Title(参考訳): 質問生成のための自動応答性評価
- Authors: Zifan Wang, Kotaro Funakoshi, Manabu Okumura
- Abstract要約: 本研究は,提案した質問が参照回答によって答えられるかどうかを評価するために,提案手法をPMAN(Prompting-based Metric on ANswerability)として提案する。
ChatGPTに基づくQGモデルの実装は,解答可能な質問を生成する上で,最先端(SOTA)性能を実現する。
- 参考スコア(独自算出の注目度): 32.1067137848404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional automatic evaluation metrics, such as BLEU and ROUGE, developed
for natural language generation (NLG) tasks, are based on measuring the n-gram
overlap between the generated and reference text. These simple metrics may be
insufficient for more complex tasks, such as question generation (QG), which
requires generating questions that are answerable by the reference answers.
Developing a more sophisticated automatic evaluation metric, thus, remains as
an urgent problem in QG research. This work proposes a Prompting-based Metric
on ANswerability (PMAN), a novel automatic evaluation metric to assess whether
the generated questions are answerable by the reference answers for the QG
tasks. Extensive experiments demonstrate that its evaluation results are
reliable and align with human evaluations. We further apply our metric to
evaluate the performance of QG models, which shows our metric complements
conventional metrics. Our implementation of a ChatGPT-based QG model achieves
state-of-the-art (SOTA) performance in generating answerable questions.
- Abstract(参考訳): 自然言語生成(nlg)タスク用に開発されたbleuやrougeなどの従来の自動評価指標は、生成されたテキストと参照テキストのn-gram重なりの測定に基づいている。
これらの単純なメトリクスは、質問生成(QG)のようなより複雑なタスクには不十分であり、参照された回答によって答えられる質問を生成する必要がある。
より高度な自動評価指標の開発は、QG研究において緊急の問題として残っている。
本研究は,qgタスクに対する基準回答によって生成された質問が回答可能かどうかを評価するための,新しい自動評価指標であるpman(progging-based metric on answerability)を提案する。
大規模な実験により、評価結果は信頼性が高く、人間の評価と一致していることが示された。
さらに,従来の指標を補完する指標であるQGモデルの性能評価に指標を適用した。
ChatGPTに基づくQGモデルの実装は,解答可能な質問を生成する上で,最先端(SOTA)性能を実現する。
関連論文リスト
- QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation [9.001613702628253]
人間の評価は質問生成(QG)の分野で広く使われており、自動メトリクスのゴールドスタンダードとして機能している。
統一された評価基準が欠如しており、QGモデルと自動メトリクスの両方の一貫性のある評価を妨げている。
質問生成のための多次元評価ベンチマークであるQGEvalを提案する。
論文 参考訳(メタデータ) (2024-06-09T09:51:55Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Evaluation of Question Generation Needs More References [7.876222232341623]
我々は、より堅牢なQG評価のために、基準質問を言い換えることを提案する。
GPT-3のような大規模言語モデルを用いて,意味論的・統語論的に多様な質問を作成した。
論文 参考訳(メタデータ) (2023-05-26T04:40:56Z) - QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。
QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-10-09T19:00:39Z) - Quiz Design Task: Helping Teachers Create Quizzes with Automated
Question Generation [87.34509878569916]
本稿では,教師が読解クイズを自動生成するためのユースケースに焦点を当てた。
本研究は,クイズを構築中の教師が質問を受講し,それに応じるか,あるいは拒否するかのどちらかを理由として行う。
論文 参考訳(メタデータ) (2022-05-03T18:59:03Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z) - Towards Automatic Generation of Questions from Long Answers [11.198653485869935]
本稿では,従来のAQGシステムの性能評価のための新しい評価ベンチマークを提案する。
既存のAQG法の性能は,回答の長さが大きくなるにつれて著しく低下することを示した。
トランスフォーマーに基づく手法は, 従来のAQG法よりも, 自己評価や人的評価の点で優れていた。
論文 参考訳(メタデータ) (2020-04-10T16:45:08Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。