論文の概要: Is Reference Necessary in the Evaluation of NLG Systems? When and Where?
- arxiv url: http://arxiv.org/abs/2403.14275v1
- Date: Thu, 21 Mar 2024 10:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 14:48:00.542667
- Title: Is Reference Necessary in the Evaluation of NLG Systems? When and Where?
- Title(参考訳): NLGシステムの評価には基準が必要か?
- Authors: Shuqian Sheng, Yi Xu, Luoyi Fu, Jiaxin Ding, Lei Zhou, Xinbing Wang, Chenghu Zhou,
- Abstract要約: 基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
- 参考スコア(独自算出の注目度): 58.52957222172377
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The majority of automatic metrics for evaluating NLG systems are reference-based. However, the challenge of collecting human annotation results in a lack of reliable references in numerous application scenarios. Despite recent advancements in reference-free metrics, it has not been well understood when and where they can be used as an alternative to reference-based metrics. In this study, by employing diverse analytical approaches, we comprehensively assess the performance of both metrics across a wide range of NLG tasks, encompassing eight datasets and eight evaluation models. Based on solid experiments, the results show that reference-free metrics exhibit a higher correlation with human judgment and greater sensitivity to deficiencies in language quality. However, their effectiveness varies across tasks and is influenced by the quality of candidate texts. Therefore, it's important to assess the performance of reference-free metrics before applying them to a new task, especially when inputs are in uncommon form or when the answer space is highly variable. Our study can provide insight into the appropriate application of automatic metrics and the impact of metric choice on evaluation performance.
- Abstract(参考訳): NLGシステム評価のための自動メトリクスの大部分は、参照ベースである。
しかしながら、ヒューマンアノテーションの収集という課題は、多くのアプリケーションシナリオにおける信頼性の高い参照の欠如をもたらす。
参照なしメトリクスの最近の進歩にもかかわらず、いつ、どこで参照ベースのメトリクスの代替として使用できるのかはよく理解されていない。
本研究では, 多様な分析手法を用いて, 8つのデータセットと8つの評価モデルを含む多種多様なNLGタスクにおいて, 両指標のパフォーマンスを総合的に評価する。
その結果, 基準自由度は人間の判断と高い相関を示し, 言語品質の低下に対する感度が高いことがわかった。
しかし、その効果はタスクによって異なり、候補テキストの品質に影響される。
したがって、新しいタスクに適用する前に、特に入力が一般的でない場合や、応答空間が高度に変動する場合に、参照不要なメトリクスのパフォーマンスを評価することが重要です。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
関連論文リスト
- What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist [20.448405494617397]
Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
論文 参考訳(メタデータ) (2023-05-15T11:51:55Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - Perturbation CheckLists for Evaluating NLG Evaluation Metrics [16.20764980129339]
自然言語生成(NLG)評価は,複数の望ましい基準の評価を必要とする多面的課題である。
6つのNLGタスクのための既存のデータセット全体で、これらの複数の基準に対する人間の評価スコアは相関しないことが多い。
これは、NLGのための新しい自動評価指標を提案する現在のレシピが不十分であることを示唆している。
論文 参考訳(メタデータ) (2021-09-13T08:26:26Z) - OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics [53.779709191191685]
オープンエンドのストーリー生成指標を評価するためのベンチマークであるOpenMEVAを提案する。
OpenMEVAは、メトリクスの能力を評価するための包括的なテストスイートを提供する。
既存の指標は人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識が欠如していることが観察された。
論文 参考訳(メタデータ) (2021-05-19T04:45:07Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。