論文の概要: QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation
- arxiv url: http://arxiv.org/abs/2406.05707v2
- Date: Thu, 10 Oct 2024 15:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:37.198745
- Title: QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation
- Title(参考訳): QGEval: 質問生成のための多次元評価のベンチマーク
- Authors: Weiping Fu, Bifan Wei, Jianxiang Hu, Zhongmin Cai, Jun Liu,
- Abstract要約: 人間の評価は質問生成(QG)の分野で広く使われており、自動メトリクスのゴールドスタンダードとして機能している。
統一された評価基準が欠如しており、QGモデルと自動メトリクスの両方の一貫性のある評価を妨げている。
質問生成のための多次元評価ベンチマークであるQGEvalを提案する。
- 参考スコア(独自算出の注目度): 9.001613702628253
- License:
- Abstract: Automatically generated questions often suffer from problems such as unclear expression or factual inaccuracies, requiring a reliable and comprehensive evaluation of their quality. Human evaluation is widely used in the field of question generation (QG) and serves as the gold standard for automatic metrics. However, there is a lack of unified human evaluation criteria, which hampers consistent and reliable evaluations of both QG models and automatic metrics. To address this, we propose QGEval, a multi-dimensional Evaluation benchmark for Question Generation, which evaluates both generated questions and existing automatic metrics across 7 dimensions: fluency, clarity, conciseness, relevance, consistency, answerability, and answer consistency. We demonstrate the appropriateness of these dimensions by examining their correlations and distinctions. Through consistent evaluations of QG models and automatic metrics with QGEval, we find that 1) most QG models perform unsatisfactorily in terms of answerability and answer consistency, and 2) existing metrics fail to align well with human judgments when evaluating generated questions across the 7 dimensions. We expect this work to foster the development of both QG technologies and their evaluation.
- Abstract(参考訳): 自動生成された質問は、しばしば不明瞭な表現や事実の不正確さのような問題に悩まされ、その品質の信頼性と包括的な評価を必要とする。
人間の評価は質問生成(QG)の分野で広く使われており、自動メトリクスのゴールドスタンダードとして機能している。
しかし、統一された人的評価基準が欠如しており、これはQGモデルと自動メトリクスの両方の一貫性と信頼性を損なう。
そこで本研究では,質問生成のための多次元評価ベンチマークであるQGEvalを提案する。このベンチマークは,生成した質問と既存の7次元にわたる自動メトリクス(流速,明瞭度,簡潔性,妥当性,一貫性,応答性,応答性)を評価する。
これらの次元の妥当性を,それらの相関関係と相違点を調べて示す。
QGEvalによるQGモデルと自動メトリクスの一貫性のある評価を通して、そのことが分かる。
1)ほとんどのQGモデルは、応答可能性と応答整合性の観点から不満足に機能し、
2) 既存の指標は, 7次元にわたって発生した質問を評価する際に, 人間の判断とうまく一致しない。
本研究は,QG技術の発展と評価を両立させることが期待されている。
関連論文リスト
- A Step Towards Mixture of Grader: Statistical Analysis of Existing Automatic Evaluation Metrics [6.571049277167304]
既存の評価指標の統計について検討し,その限界をよりよく理解する。
潜在的な解決策として、Mixture Of Graderが自動QA評価器の品質を向上する可能性について論じる。
論文 参考訳(メタデータ) (2024-10-13T22:10:42Z) - An Automatic Question Usability Evaluation Toolkit [1.2499537119440245]
多重選択質問(MCQ)を評価するには、労働集約的な人的評価か、可読性を優先する自動化方法のいずれかが必要となる。
MCQの総合的かつ自動化された品質評価のために,IWFルーブリックを利用したオープンソースツールであるSAQUETを紹介する。
94%以上の精度で,既存の評価手法の限界を強調し,教育評価の質向上の可能性を示した。
論文 参考訳(メタデータ) (2024-05-30T23:04:53Z) - Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation [64.64849950642619]
テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
論文 参考訳(メタデータ) (2023-10-27T16:20:10Z) - QUDEVAL: The Evaluation of Questions Under Discussion Discourse Parsing [87.20804165014387]
Questions Under discussions (QUD) は、言論を継続的に質問し、答えるように進行する多目的言語フレームワークである。
本研究はQUD解析の自動評価のための最初のフレームワークを紹介する。
細調整されたシステムとLLMの両方から生成された2,190のQUD質問のきめ細かい評価データセットであるQUDevalを提案する。
論文 参考訳(メタデータ) (2023-10-23T03:03:58Z) - Automatic Answerability Evaluation for Question Generation [32.1067137848404]
提案するPMANは,提案した質問が参照回答によって答えられるかどうかを評価するための,新しい自動評価指標である。
GPTに基づくQGモデルの実装は,回答可能な質問を生成する上で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-22T00:13:07Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。
QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-10-09T19:00:39Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。