論文の概要: Analyzing and Evaluating Correlation Measures in NLG Meta-Evaluation
- arxiv url: http://arxiv.org/abs/2410.16834v1
- Date: Tue, 22 Oct 2024 09:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:29:01.475802
- Title: Analyzing and Evaluating Correlation Measures in NLG Meta-Evaluation
- Title(参考訳): NLGメタ評価における相関対策の分析と評価
- Authors: Mingqi Gao, Xinyu Hu, Li Lin, Xiaojun Wan,
- Abstract要約: そこで本研究では,広範に使用されているNLG評価データセットと32の評価指標から,膨大な実世界のデータを用いて,12の共通相関測度を解析した。
我々は,グローバルグルーピングとピアソン相関を用いた測定が,全体的な性能の最高の指標であることが判明した。
- 参考スコア(独自算出の注目度): 39.5140467914755
- License:
- Abstract: The correlation between NLG automatic evaluation metrics and human evaluation is often regarded as a critical criterion for assessing the capability of an evaluation metric. However, different grouping methods and correlation coefficients result in various types of correlation measures used in meta-evaluation. In specific evaluation scenarios, prior work often directly follows conventional measure settings, but the characteristics and differences between these measures have not gotten sufficient attention. Therefore, this paper analyzes 12 common correlation measures using a large amount of real-world data from six widely-used NLG evaluation datasets and 32 evaluation metrics, revealing that different measures indeed impact the meta-evaluation results. Furthermore, we propose three perspectives that reflect the capability of meta-evaluation and find that the measure using global grouping and Pearson correlation exhibits the best overall performance, involving the discriminative power, ranking consistency, and sensitivity to score granularity.
- Abstract(参考訳): NLG自動評価基準と人的評価の相関は、評価基準の能力を評価する上で重要な基準とみなされることが多い。
しかし、異なるグループ化法と相関係数は、メタ評価に使用される様々な種類の相関測度をもたらす。
特定の評価シナリオでは、事前の作業は、しばしば従来の測度設定に従っているが、これらの測度の特徴と違いは十分に注目されていない。
そこで本研究では,NLG評価データセット6件と評価指標32件の膨大な実世界のデータを用いて,12の共通相関測度を解析し,異なる測度がメタ評価結果に実際に影響を与えていることを明らかにする。
さらに、メタ評価の能力を反映した3つの視点を提案し、グローバルグルーピングとピアソン相関を用いた測定が、識別力、ランキング整合性、粒度評価の感度を含む、最高の総合的な性能を示すことを示した。
関連論文リスト
- A Dual-Perspective NLG Meta-Evaluation Framework with Automatic Benchmark and Better Interpretability [36.83105355430611]
本稿では,異なる評価機能に着目したデュアルパースペクティブなNLGメタ評価フレームワークを提案する。
また、新しい人的アノテーションを必要とせず、対応するベンチマークを自動的に構築する手法も導入する。
論文 参考訳(メタデータ) (2025-02-17T17:22:49Z) - As Biased as You Measure: Methodological Pitfalls of Bias Evaluations in Speaker Verification Research [15.722009470067974]
本研究では,測定がバイアス評価の結果に与える影響について検討する。
偏見評価は,評価基準値に強く影響されていることを示す。
以上の結果から,比に基づく偏差測定の活用を推奨する。
論文 参考訳(メタデータ) (2024-08-24T16:04:51Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue
Evaluation [68.59356746305255]
本稿では,システムとユーザ間のターンレベルインタラクションを測定するための,モデルに依存しない新しいアプローチを提案する。
提案手法は,既存の評価システムと比較して,人間の判断との相関性を大幅に改善する。
論文 参考訳(メタデータ) (2023-06-27T06:58:03Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。