論文の概要: Evaluation of Question Generation Needs More References
- arxiv url: http://arxiv.org/abs/2305.16626v1
- Date: Fri, 26 May 2023 04:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:59:07.054722
- Title: Evaluation of Question Generation Needs More References
- Title(参考訳): 質問生成の評価にはより多くの文献が必要である
- Authors: Shinhyeok Oh, Hyojun Go, Hyeongdon Moon, Yunsung Lee, Myeongho Jeong,
Hyun Seung Lee and Seungtaek Choi
- Abstract要約: 我々は、より堅牢なQG評価のために、基準質問を言い換えることを提案する。
GPT-3のような大規模言語モデルを用いて,意味論的・統語論的に多様な質問を作成した。
- 参考スコア(独自算出の注目度): 7.876222232341623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question generation (QG) is the task of generating a valid and fluent
question based on a given context and the target answer. According to various
purposes, even given the same context, instructors can ask questions about
different concepts, and even the same concept can be written in different ways.
However, the evaluation for QG usually depends on single reference-based
similarity metrics, such as n-gram-based metric or learned metric, which is not
sufficient to fully evaluate the potential of QG methods. To this end, we
propose to paraphrase the reference question for a more robust QG evaluation.
Using large language models such as GPT-3, we created semantically and
syntactically diverse questions, then adopt the simple aggregation of the
popular evaluation metrics as the final scores. Through our experiments, we
found that using multiple (pseudo) references is more effective for QG
evaluation while showing a higher correlation with human evaluations than
evaluation with a single reference.
- Abstract(参考訳): 質問生成(QG)とは、与えられたコンテキストと対象の回答に基づいて有効な質問を生成するタスクである。
様々な目的により、同じ文脈であっても、インストラクターは異なる概念について質問することができ、同じ概念も異なる方法で書くことができる。
しかし、QGの評価は、通常、n-gram-based metric や learn metric のような単一の参照ベースの類似度メトリクスに依存し、QG法の可能性を完全に評価するには不十分である。
そこで本研究では,より堅牢なQG評価のために,参照質問を言い換えることを提案する。
gpt-3のような大規模言語モデルを用いて意味論的および構文学的に多様な質問を作成し,最終スコアとして一般的な評価指標の単純な集計を適用した。
実験の結果,複数参照(擬似参照)を用いることは,単一の参照による評価よりも高い相関性を示しながら,QG評価に有効であることが判明した。
関連論文リスト
- Automatic Answerability Evaluation for Question Generation [32.1067137848404]
提案するPMANは,提案した質問が参照回答によって答えられるかどうかを評価するための,新しい自動評価指標である。
GPTに基づくQGモデルの実装は,回答可能な質問を生成する上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-22T00:13:07Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Not All Metrics Are Guilty: Improving NLG Evaluation with LLM
Paraphrasing [92.17776245159622]
Para-Refは、参照数を増やして評価ベンチマークを強化する新しい方法である。
我々は,大規模言語モデル(LLM)を用いて,単一の参照を多種多様な表現で複数の高品質なものに表現する。
提案手法は, 自動評価値16の相関を+7.82%の比率で効果的に改善することができる。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - RQUGE: Reference-Free Metric for Evaluating Question Generation by
Answering the Question [29.18544401904503]
そこで我々は,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。
我々は,RQUGEが基準質問に頼らずに,人間の判断と高い相関関係を持つことを実証した。
論文 参考訳(メタデータ) (2022-11-02T21:10:09Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。
QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-10-09T19:00:39Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - On the Evaluation of Answer-Agnostic Paragraph-level Multi-Question
Generation [57.630606799713526]
本研究は,所定の段落から有意な質問の集合を予測するタスクについて,その解答の事前知識を伴わずに検討する。
まず、ハンガリーのアルゴリズムを用いて、提案したペアをスコア付けする前に、予測された質問を参照に割り当てることにより、参照の集合に対して予測された質問の集合を評価する新しい手法を提案する。
第2に,事前学習したseq2seqモデルを用いて,与えられた段落に関連する質問の集合を生成し,選択するための異なる戦略を比較した。
論文 参考訳(メタデータ) (2022-03-09T00:55:54Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。