論文の概要: Reference-based Metrics Disprove Themselves in Question Generation
- arxiv url: http://arxiv.org/abs/2403.12242v3
- Date: Thu, 10 Oct 2024 16:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:29:56.277583
- Title: Reference-based Metrics Disprove Themselves in Question Generation
- Title(参考訳): 基準に基づくメトリクスは質問生成のテーマを異にする
- Authors: Bang Nguyen, Mengxia Yu, Yun Huang, Meng Jiang,
- Abstract要約: 人手による参照を用いることで、参照ベースのメトリクスの有効性を保証できないことがわかった。
優れた測定基準は、生成した質問に比較して、人間公認の質問を格付けすることが期待されている。
本研究では, 自然性, 応答性, 複雑性などの多次元的基準からなる基準自由度尺度を提案する。
- 参考スコア(独自算出の注目度): 17.83616985138126
- License:
- Abstract: Reference-based metrics such as BLEU and BERTScore are widely used to evaluate question generation (QG). In this study, on QG benchmarks such as SQuAD and HotpotQA, we find that using human-written references cannot guarantee the effectiveness of the reference-based metrics. Most QG benchmarks have only one reference; we replicate the annotation process and collect another reference. A good metric is expected to grade a human-validated question no worse than generated questions. However, the results of reference-based metrics on our newly collected reference disproved the metrics themselves. We propose a reference-free metric consisted of multi-dimensional criteria such as naturalness, answerability, and complexity, utilizing large language models. These criteria are not constrained to the syntactic or semantic of a single reference question, and the metric does not require a diverse set of references. Experiments reveal that our metric accurately distinguishes between high-quality questions and flawed ones, and achieves state-of-the-art alignment with human judgment.
- Abstract(参考訳): BLEUやBERTScoreのような基準ベースのメトリクスは、質問生成(QG)を評価するために広く使われている。
本研究では、SQuADやHotpotQAなどのQGベンチマークにおいて、人手による参照を用いることで基準ベースのメトリクスの有効性を保証できないことを示す。
ほとんどのQGベンチマークは1つの参照しか持たない。
優れた測定基準は、生成した質問に比較して、人間公認の質問を格付けすることが期待されている。
しかし, 新たに収集した基準値に対する基準基準値の結果は, 基準値自体を反証した。
本研究では,大規模言語モデルを用いて,自然性,応答可能性,複雑性などの多次元基準からなる基準自由度尺度を提案する。
これらの基準は単一の参照質問の構文や意味に制約されず、メトリクスは多様な参照セットを必要としない。
実験の結果、我々の測定基準は高品質な質問と欠陥のある質問を正確に区別し、人間の判断と最先端の一致を実現していることがわかった。
関連論文リスト
- Mitigating the Impact of Reference Quality on Evaluation of Summarization Systems with Reference-Free Metrics [4.881135687863645]
我々は,人間の評価値とよく相関する基準のないメトリクスを導入し,計算が極めて安価である。
また,低品質の参照設定におけるロバスト性を改善するために,基準ベースのメトリクスと併用することも示している。
論文 参考訳(メタデータ) (2024-10-08T11:09:25Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Evaluation of Question Generation Needs More References [7.876222232341623]
我々は、より堅牢なQG評価のために、基準質問を言い換えることを提案する。
GPT-3のような大規模言語モデルを用いて,意味論的・統語論的に多様な質問を作成した。
論文 参考訳(メタデータ) (2023-05-26T04:40:56Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - RQUGE: Reference-Free Metric for Evaluating Question Generation by
Answering the Question [29.18544401904503]
そこで我々は,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。
我々は,RQUGEが基準質問に頼らずに,人間の判断と高い相関関係を持つことを実証した。
論文 参考訳(メタデータ) (2022-11-02T21:10:09Z) - Revisiting the Evaluation Metrics of Paraphrase Generation [35.6803390044542]
多くの既存のパラフレーズ生成モデルは、生成されたパラフレーズを評価するために参照ベースのメトリクスを使用する。
本稿では、生成されたパラフレーズの品質を反映できる参照フリーメトリックであるBBScoreを提案する。
論文 参考訳(メタデータ) (2022-02-17T07:18:54Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。