論文の概要: Evaluation Should Not Ignore Variation: On the Impact of Reference Set Choice on Summarization Metrics
- arxiv url: http://arxiv.org/abs/2506.14335v1
- Date: Tue, 17 Jun 2025 09:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.40472
- Title: Evaluation Should Not Ignore Variation: On the Impact of Reference Set Choice on Summarization Metrics
- Title(参考訳): 変分を無視すべきでない評価--基準セット選択が要約指標に及ぼす影響について
- Authors: Silvia Casola, Yang Janet Liu, Siyao Peng, Oliver Kraus, Albert Gatt, Barbara Plank,
- Abstract要約: 本研究は,参照セットの選択に関して,広く使用されている参照ベースメトリクスの感度について検討する。
多くの一般的な指標が大きな不安定性を示していることを実証する。
この不安定性は、参照セットによってモデルランキングが異なるROUGEのようなn-gramベースのメトリクスに特に関係している。
- 参考スコア(独自算出の注目度): 25.428322811598722
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Human language production exhibits remarkable richness and variation, reflecting diverse communication styles and intents. However, this variation is often overlooked in summarization evaluation. While having multiple reference summaries is known to improve correlation with human judgments, the impact of using different reference sets on reference-based metrics has not been systematically investigated. This work examines the sensitivity of widely used reference-based metrics in relation to the choice of reference sets, analyzing three diverse multi-reference summarization datasets: SummEval, GUMSum, and DUC2004. We demonstrate that many popular metrics exhibit significant instability. This instability is particularly concerning for n-gram-based metrics like ROUGE, where model rankings vary depending on the reference sets, undermining the reliability of model comparisons. We also collect human judgments on LLM outputs for genre-diverse data and examine their correlation with metrics to supplement existing findings beyond newswire summaries, finding weak-to-no correlation. Taken together, we recommend incorporating reference set variation into summarization evaluation to enhance consistency alongside correlation with human judgments, especially when evaluating LLMs.
- Abstract(参考訳): 人間の言語生産は、様々なコミュニケーションスタイルや意図を反映して、顕著な豊かさと変動を示す。
しかし、この変動はしばしば要約評価において見過ごされる。
複数の参照サマリーを持つことは、人間の判断との相関を改善することが知られているが、参照ベースのメトリクスに対する異なる参照セットを使用することによる影響は、体系的に研究されていない。
本研究は、参照セットの選択に関して広く使用されている基準ベースのメトリクスの感度を調べ、SummEval、GUMSum、DUC2004の3つの多様なマルチ参照要約データセットを分析した。
多くの一般的な指標が大きな不安定性を示していることを実証する。
この不安定性は、ROUGEのようなn-gramベースのメトリクスに特に関係しており、モデルランキングは参照セットによって異なるため、モデル比較の信頼性が損なわれる。
また、ジャンル間データのLLM出力に関する人的判断を収集し、それらの相関関係を指標として、ニュースワイヤの要約以外の既存の知見を補足し、弱い相関関係を見出す。
まとめて,LLMの評価において,人間の判断と相関する一貫性を高めるために,参照セットの変動を要約評価に組み込むことを推奨する。
関連論文リスト
- Analyzing and Evaluating Correlation Measures in NLG Meta-Evaluation [39.5140467914755]
そこで本研究では,広範に使用されているNLG評価データセットと32の評価指標から,膨大な実世界のデータを用いて,12の共通相関測度を解析した。
グローバルグルーピングとピアソン相関係数を用いた測定は、識別力とランキング整合性の両方において最高の性能を示す。
論文 参考訳(メタデータ) (2024-10-22T09:14:21Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Redundancy Aware Multi-Reference Based Gainwise Evaluation of Extractive Summarization [3.5297361401370044]
ROUGEメートル法は意味的認識の欠如と抽出要約器のランク付け品質について無知であるとして批判されている。
これまでの研究では、これらの問題に対処するSem-nCGと呼ばれるゲインベースの自動メトリクスが導入された。
冗長性を考慮したSem-nCG測度を提案し、複数の参照に対してモデル要約を評価する方法を示す。
論文 参考訳(メタデータ) (2023-08-04T11:47:19Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。