論文の概要: NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist
- arxiv url: http://arxiv.org/abs/2305.08566v4
- Date: Fri, 26 May 2023 07:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:54:39.038640
- Title: NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist
- Title(参考訳): 相関解析を超えたnlg評価指標:経験的メトリック選好チェックリスト
- Authors: Iftitahu Ni'mah and Meng Fang and Vlado Menkovski and Mykola
Pechenizkiy
- Abstract要約: Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
- 参考スコア(独自算出の注目度): 20.448405494617397
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study, we analyze automatic evaluation metrics for Natural Language
Generation (NLG), specifically task-agnostic metrics and human-aligned metrics.
Task-agnostic metrics, such as Perplexity, BLEU, BERTScore, are cost-effective
and highly adaptable to diverse NLG tasks, yet they have a weak correlation
with human. Human-aligned metrics (CTC, CtrlEval, UniEval) improves correlation
level by incorporating desirable human-like qualities as training objective.
However, their effectiveness at discerning system-level performance and quality
of system outputs remain unclear.
We present metric preference checklist as a framework to assess the
effectiveness of automatic metrics in three NLG tasks: Text Summarization,
Dialogue Response Generation, and Controlled Generation. Our proposed framework
provides access: (i) for verifying whether automatic metrics are faithful to
human preference, regardless of their correlation level to human; and (ii) for
inspecting the strengths and limitations of NLG systems via pairwise
evaluation. We show that automatic metrics provide a better guidance than human
on discriminating system-level performance in Text Summarization and Controlled
Generation tasks. We also show that multi-aspect human-aligned metric (UniEval)
is not necessarily dominant over single-aspect human-aligned metrics (CTC,
CtrlEval) and task-agnostic metrics (BLEU, BERTScore), particularly in
Controlled Generation tasks.
- Abstract(参考訳): 本研究では,自然言語生成(NLG)の自動評価指標,特にタスク非依存指標と人間対応指標について分析する。
Perplexity、BLEU、BERTScoreといったタスク非依存のメトリクスは、費用対効果が高く、多様なNLGタスクに適応できるが、人間との相関は弱い。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
しかし、システムレベルの性能とシステム出力の品質を識別する効果は、まだ不明である。
テキスト要約,対話応答生成,制御生成という3つのNLGタスクにおける自動メトリクスの有効性を評価するためのフレームワークとして,計量選好チェックリストを提案する。
提案するフレームワークは:
(i)人間との相関度にかかわらず、自動メトリクスが人間の好みに忠実であるかどうかを検証すること。
(ii) ペアワイズ評価によるnlgシステムの強みと限界を検査する。
自動メトリクスは,テキスト要約と制御された生成タスクにおけるシステムレベルのパフォーマンスを識別する上で,人間よりも優れたガイダンスを提供する。
また,マルチアスペクト・ヒューマンアライメント・メトリック(UniEval)は,特に制御生成タスクにおいて,単一アスペクト・ヒューマンアライメント・メトリック(CTC,CtrlEval)とタスクアライメント・メトリクス(BLEU,BERTScore)に必ずしも支配的ではないことを示す。
関連論文リスト
- Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! [80.3129093617928]
毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行う。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
本稿では,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を紹介する。
論文 参考訳(メタデータ) (2024-08-25T13:29:34Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - HAUSER: Towards Holistic and Automatic Evaluation of Simile Generation [18.049566239050762]
優れた評価指標は、シミュレーション生成(SG)の研究を導くビーコンのようなものである
そこで我々は,SGタスクの総合的かつ自動評価システムであるHAを確立する。
私たちのメトリクスは、以前の自動メトリクスと比較して、各視点からの人間の評価と著しく相関しています。
論文 参考訳(メタデータ) (2023-06-13T06:06:01Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Perturbation CheckLists for Evaluating NLG Evaluation Metrics [16.20764980129339]
自然言語生成(NLG)評価は,複数の望ましい基準の評価を必要とする多面的課題である。
6つのNLGタスクのための既存のデータセット全体で、これらの複数の基準に対する人間の評価スコアは相関しないことが多い。
これは、NLGのための新しい自動評価指標を提案する現在のレシピが不十分であることを示唆している。
論文 参考訳(メタデータ) (2021-09-13T08:26:26Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。