論文の概要: Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics
- arxiv url: http://arxiv.org/abs/2204.10216v1
- Date: Thu, 21 Apr 2022 15:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:23:31.789857
- Title: Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics
- Title(参考訳): 自動要約評価指標の再検討システム-レベル相関
- Authors: Daniel Deutsch and Rotem Dror and Dan Roth
- Abstract要約: システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
- 参考スコア(独自算出の注目度): 64.81682222169113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How reliably an automatic summarization evaluation metric replicates human
judgments of summary quality is quantified by system-level correlations. We
identify two ways in which the definition of the system-level correlation is
inconsistent with how metrics are used to evaluate systems in practice and
propose changes to rectify this disconnect. First, we calculate the system
score for an automatic metric using the full test set instead of the subset of
summaries judged by humans, which is currently standard practice. We
demonstrate how this small change leads to more precise estimates of
system-level correlations. Second, we propose to calculate correlations only on
pairs of systems that are separated by small differences in automatic scores
which are commonly observed in practice. This allows us to demonstrate that our
best estimate of the correlation of ROUGE to human judgments is near 0 in
realistic scenarios. The results from the analyses point to the need to collect
more high-quality human judgments and to improve automatic metrics when
differences in system scores are small.
- Abstract(参考訳): システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためのメトリクスの使用方法と矛盾する2つの方法を特定し、この切り離しを正すための変更を提案する。
まず,人間によって判断されるサマリーのサブセットではなく,全テストセットを用いて自動測定値のシステムスコアを計算する。
この小さな変化がシステムレベルの相関関係をより正確に見積もることを示す。
第2に,実際に一般的に見られる自動スコアの小さな差によって分離されたシステム対のみの相関を計算することを提案する。
これにより、現実的なシナリオにおいて、ROUGEと人間の判断の相関関係の最良の推定が0に近いことを示すことができる。
分析の結果,システムスコアの差が小さい場合に,より高品質な人的判断を収集し,自動測定値を改善する必要性が示唆された。
関連論文リスト
- Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
一つの集合相関スコアを*参照すると、人間の行動と自動評価方法の根本的な違いがあいまいになることを示す。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Correction of Errors in Preference Ratings from Automated Metrics for
Text Generation [4.661309379738428]
本稿では,自動メトリクスの誤り率を考慮したテキスト生成評価の統計モデルを提案する。
本モデルにより, 自動評価の精度向上と, 自動評価の精度向上を両立させることが期待できる。
論文 参考訳(メタデータ) (2023-06-06T17:09:29Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - A Human Evaluation of AMR-to-English Generation Systems [13.10463139842285]
本報告では, 流速と精度のスコアを収集し, 誤りの分類を行う新しい評価結果について述べる。
本稿では,これらのシステムの相対的品質と,自動測定値との比較について論じる。
論文 参考訳(メタデータ) (2020-04-14T21:41:30Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。