論文の概要: Evaluation of Question Generation Needs More References
- arxiv url: http://arxiv.org/abs/2305.16626v1
- Date: Fri, 26 May 2023 04:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:59:07.054722
- Title: Evaluation of Question Generation Needs More References
- Title(参考訳): 質問生成の評価にはより多くの文献が必要である
- Authors: Shinhyeok Oh, Hyojun Go, Hyeongdon Moon, Yunsung Lee, Myeongho Jeong,
Hyun Seung Lee and Seungtaek Choi
- Abstract要約: 我々は、より堅牢なQG評価のために、基準質問を言い換えることを提案する。
GPT-3のような大規模言語モデルを用いて,意味論的・統語論的に多様な質問を作成した。
- 参考スコア(独自算出の注目度): 7.876222232341623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question generation (QG) is the task of generating a valid and fluent
question based on a given context and the target answer. According to various
purposes, even given the same context, instructors can ask questions about
different concepts, and even the same concept can be written in different ways.
However, the evaluation for QG usually depends on single reference-based
similarity metrics, such as n-gram-based metric or learned metric, which is not
sufficient to fully evaluate the potential of QG methods. To this end, we
propose to paraphrase the reference question for a more robust QG evaluation.
Using large language models such as GPT-3, we created semantically and
syntactically diverse questions, then adopt the simple aggregation of the
popular evaluation metrics as the final scores. Through our experiments, we
found that using multiple (pseudo) references is more effective for QG
evaluation while showing a higher correlation with human evaluations than
evaluation with a single reference.
- Abstract(参考訳): 質問生成(QG)とは、与えられたコンテキストと対象の回答に基づいて有効な質問を生成するタスクである。
様々な目的により、同じ文脈であっても、インストラクターは異なる概念について質問することができ、同じ概念も異なる方法で書くことができる。
しかし、QGの評価は、通常、n-gram-based metric や learn metric のような単一の参照ベースの類似度メトリクスに依存し、QG法の可能性を完全に評価するには不十分である。
そこで本研究では,より堅牢なQG評価のために,参照質問を言い換えることを提案する。
gpt-3のような大規模言語モデルを用いて意味論的および構文学的に多様な質問を作成し,最終スコアとして一般的な評価指標の単純な集計を適用した。
実験の結果,複数参照(擬似参照)を用いることは,単一の参照による評価よりも高い相関性を示しながら,QG評価に有効であることが判明した。
関連論文リスト
- LINKAGE: Listwise Ranking among Varied-Quality References for Non-Factoid QA Evaluation via LLMs [61.57691505683534]
非F (Non-Factoid) Question Answering (QA) は多種多様な潜在的回答と客観的基準により評価が困難である。
大規模言語モデル (LLM) は、様々なNLPタスクにおいて魅力的な性能を持つため、NFQAの評価に利用されてきた。
提案手法は,LLMを用いて基準回答のランク付けを行う新しい評価手法であるNFQAの評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T06:42:21Z) - Accurate and Nuanced Open-QA Evaluation Through Textual Entailment [4.762213968673381]
本稿では,より情報的かつ汎用的な解答を識別するために,解答の包含関係について検討する。
提案するエンテーメントに基づく評価では,回答間の推論ギャップを定量化することにより,ボーナスや部分マークの割り当てが可能である。
論文 参考訳(メタデータ) (2024-05-26T21:33:27Z) - Reference-based Metrics Disprove Themselves in Question Generation [17.83616985138126]
人手による参照を用いることで、参照ベースのメトリクスの有効性を保証できないことがわかった。
優れた測定基準は、生成した質問に比較して、人間公認の質問を格付けすることが期待されている。
本研究では, 自然性, 応答性, 複雑性などの多次元的基準からなる基準自由度尺度を提案する。
論文 参考訳(メタデータ) (2024-03-18T20:47:10Z) - Automatic Answerability Evaluation for Question Generation [32.1067137848404]
提案するPMANは,提案した質問が参照回答によって答えられるかどうかを評価するための,新しい自動評価指標である。
GPTに基づくQGモデルの実装は,回答可能な質問を生成する上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-22T00:13:07Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。
QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-10-09T19:00:39Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - On the Evaluation of Answer-Agnostic Paragraph-level Multi-Question
Generation [57.630606799713526]
本研究は,所定の段落から有意な質問の集合を予測するタスクについて,その解答の事前知識を伴わずに検討する。
まず、ハンガリーのアルゴリズムを用いて、提案したペアをスコア付けする前に、予測された質問を参照に割り当てることにより、参照の集合に対して予測された質問の集合を評価する新しい手法を提案する。
第2に,事前学習したseq2seqモデルを用いて,与えられた段落に関連する質問の集合を生成し,選択するための異なる戦略を比較した。
論文 参考訳(メタデータ) (2022-03-09T00:55:54Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。