論文の概要: Perturbation CheckLists for Evaluating NLG Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2109.05771v1
- Date: Mon, 13 Sep 2021 08:26:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 07:05:39.048296
- Title: Perturbation CheckLists for Evaluating NLG Evaluation Metrics
- Title(参考訳): NLG評価指標評価のための摂動チェックリスト
- Authors: Ananya B. Sai, Tanay Dixit, Dev Yashpal Sheth, Sreyas Mohan, Mitesh M.
Khapra
- Abstract要約: 自然言語生成(NLG)評価は,複数の望ましい基準の評価を必要とする多面的課題である。
6つのNLGタスクのための既存のデータセット全体で、これらの複数の基準に対する人間の評価スコアは相関しないことが多い。
これは、NLGのための新しい自動評価指標を提案する現在のレシピが不十分であることを示唆している。
- 参考スコア(独自算出の注目度): 16.20764980129339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Generation (NLG) evaluation is a multifaceted task requiring
assessment of multiple desirable criteria, e.g., fluency, coherency, coverage,
relevance, adequacy, overall quality, etc. Across existing datasets for 6 NLG
tasks, we observe that the human evaluation scores on these multiple criteria
are often not correlated. For example, there is a very low correlation between
human scores on fluency and data coverage for the task of structured data to
text generation. This suggests that the current recipe of proposing new
automatic evaluation metrics for NLG by showing that they correlate well with
scores assigned by humans for a single criteria (overall quality) alone is
inadequate. Indeed, our extensive study involving 25 automatic evaluation
metrics across 6 different tasks and 18 different evaluation criteria shows
that there is no single metric which correlates well with human scores on all
desirable criteria, for most NLG tasks. Given this situation, we propose
CheckLists for better design and evaluation of automatic metrics. We design
templates which target a specific criteria (e.g., coverage) and perturb the
output such that the quality gets affected only along this specific criteria
(e.g., the coverage drops). We show that existing evaluation metrics are not
robust against even such simple perturbations and disagree with scores assigned
by humans to the perturbed output. The proposed templates thus allow for a
fine-grained assessment of automatic evaluation metrics exposing their
limitations and will facilitate better design, analysis and evaluation of such
metrics.
- Abstract(参考訳): 自然言語生成(英: natural language generation, nlg)は、多面的なタスクであり、流血性、一貫性、カバレッジ、妥当性、妥当性、全体的な品質など、複数の望ましい基準を評価する必要がある。
6つのNLGタスクのための既存のデータセット全体で、これらの複数の基準に対する人間の評価スコアは相関しないことが多い。
例えば、構造化データからテキスト生成までのタスクにおいて、流速に関する人間のスコアとデータカバレッジとの間には非常に低い相関関係がある。
これは,nlgの新たな自動評価指標を提案する現在のレシピが,ヒトが1つの基準(すべて品質以上)だけで割り当てたスコアとよく相関していることを示し,不適切であることを示唆している。
実際、6つのタスクにまたがる25の自動評価基準と18の異なる評価基準を含む広範な研究は、ほとんどのNLGタスクにおいて、望ましい基準に対する人間のスコアと相関する単一の指標が存在しないことを示している。
この状況を踏まえて,自動メトリクスの設計と評価を改善するためのチェックリストを提案する。
特定の基準(例えばカバレッジ)をターゲットにしたテンプレートを設計し、この特定の基準(例えばカバレッジ低下)に従って品質が影響を受けるように出力を摂動させます。
既存の評価指標は、そのような単純な摂動にも頑健ではないことを示し、摂動出力にヒトが割り当てたスコアと矛盾することを示す。
提案するテンプレートは,その制約を露呈する自動評価メトリクスの詳細な評価を可能にし,その評価をより良く設計,分析,評価できるようにする。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Automated Metrics for Medical Multi-Document Summarization Disagree with
Human Evaluations [22.563596069176047]
自動要約評価指標が生成した要約の語彙的特徴とどのように相関するかを分析する。
自動測定を行うだけでなく、人間によって評価された品質の側面を捉えることができず、多くの場合、これらの測定によって生成されるシステムランキングは、人間のアノテーションによるランキングと反相関している。
論文 参考訳(メタデータ) (2023-05-23T05:00:59Z) - NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist [20.448405494617397]
Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
論文 参考訳(メタデータ) (2023-05-15T11:51:55Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - Of Human Criteria and Automatic Metrics: A Benchmark of the Evaluation
of Story Generation [9.299255585127158]
人間がどの評価基準を使うべきかについては合意がない。
自動基準がどの程度それらと相関しているかは分析されていない。
HANNAにより、72の自動測定値と人間の基準との相関関係を定量的に評価できる。
論文 参考訳(メタデータ) (2022-08-24T16:35:32Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Perception Score, A Learned Metric for Open-ended Text Generation
Evaluation [62.7690450616204]
本稿では,新しい,強力な学習ベース評価尺度を提案する。
本手法は,単語の重なり合いなどの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を測定し,一律に得点する。
論文 参考訳(メタデータ) (2020-08-07T10:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。