論文の概要: Analyzing and Evaluating Correlation Measures in NLG Meta-Evaluation
- arxiv url: http://arxiv.org/abs/2410.16834v1
- Date: Tue, 22 Oct 2024 09:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:01.475802
- Title: Analyzing and Evaluating Correlation Measures in NLG Meta-Evaluation
- Title(参考訳): NLGメタ評価における相関対策の分析と評価
- Authors: Mingqi Gao, Xinyu Hu, Li Lin, Xiaojun Wan,
- Abstract要約: そこで本研究では,広範に使用されているNLG評価データセットと32の評価指標から,膨大な実世界のデータを用いて,12の共通相関測度を解析した。
我々は,グローバルグルーピングとピアソン相関を用いた測定が,全体的な性能の最高の指標であることが判明した。
- 参考スコア(独自算出の注目度): 39.5140467914755
- License:
- Abstract: The correlation between NLG automatic evaluation metrics and human evaluation is often regarded as a critical criterion for assessing the capability of an evaluation metric. However, different grouping methods and correlation coefficients result in various types of correlation measures used in meta-evaluation. In specific evaluation scenarios, prior work often directly follows conventional measure settings, but the characteristics and differences between these measures have not gotten sufficient attention. Therefore, this paper analyzes 12 common correlation measures using a large amount of real-world data from six widely-used NLG evaluation datasets and 32 evaluation metrics, revealing that different measures indeed impact the meta-evaluation results. Furthermore, we propose three perspectives that reflect the capability of meta-evaluation and find that the measure using global grouping and Pearson correlation exhibits the best overall performance, involving the discriminative power, ranking consistency, and sensitivity to score granularity.
- Abstract(参考訳): NLG自動評価基準と人的評価の相関は、評価基準の能力を評価する上で重要な基準とみなされることが多い。
しかし、異なるグループ化法と相関係数は、メタ評価に使用される様々な種類の相関測度をもたらす。
特定の評価シナリオでは、事前の作業は、しばしば従来の測度設定に従っているが、これらの測度の特徴と違いは十分に注目されていない。
そこで本研究では,NLG評価データセット6件と評価指標32件の膨大な実世界のデータを用いて,12の共通相関測度を解析し,異なる測度がメタ評価結果に実際に影響を与えていることを明らかにする。
さらに、メタ評価の能力を反映した3つの視点を提案し、グローバルグルーピングとピアソン相関を用いた測定が、識別力、ランキング整合性、粒度評価の感度を含む、最高の総合的な性能を示すことを示した。
関連論文リスト
- Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
一つの集合相関スコアを*参照すると、人間の行動と自動評価方法の根本的な違いがあいまいになることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - A Critical Look at Meta-evaluating Summarisation Evaluation Metrics [11.541368732416506]
私たちは、より堅牢な評価指標の開発を可能にする、より多様なベンチマークを構築するのに時間がかかっていると論じています。
我々は、生成された要約のコミュニケーション目標を考慮に入れた、ユーザ中心の品質次元に焦点を当てた研究を求めている。
論文 参考訳(メタデータ) (2024-09-29T01:30:13Z) - As Biased as You Measure: Methodological Pitfalls of Bias Evaluations in Speaker Verification Research [15.722009470067974]
本研究では,測定がバイアス評価の結果に与える影響について検討する。
偏見評価は,評価基準値に強く影響されていることを示す。
以上の結果から,比に基づく偏差測定の活用を推奨する。
論文 参考訳(メタデータ) (2024-08-24T16:04:51Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - On the Ambiguity of Rank-Based Evaluation of Entity Alignment or Link
Prediction Methods [27.27230441498167]
本稿では,知識グラフから情報を得る方法として,リンク予測とエンティティアライメント(Entity Alignment)の2つのファミリについて,より詳しく検討する。
特に、既存のスコアはすべて、異なるデータセット間で結果を比較するのにほとんど役に立たないことを実証する。
これは結果の解釈において様々な問題を引き起こしており、誤解を招く結論を裏付ける可能性がある。
論文 参考訳(メタデータ) (2020-02-17T12:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。