論文の概要: A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods
- arxiv url: http://arxiv.org/abs/2104.00054v1
- Date: Wed, 31 Mar 2021 18:28:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:46:03.229009
- Title: A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods
- Title(参考訳): 再サンプリング法による要約評価指標の統計的分析
- Authors: Daniel Deutsch, Rotem Dror, Dan Roth
- Abstract要約: 信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
- 参考スコア(独自算出の注目度): 60.04142561088524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quality of a summarization evaluation metric is quantified by calculating
the correlation between its scores and human annotations across a large number
of summaries. Currently, it is not clear how precise these correlation
estimates are, nor whether differences between two metrics' correlations
reflects a true difference or if it is due to random chance. In this work, we
address these two problems by proposing methods for calculating confidence
intervals and running hypothesis tests for correlations using two resampling
methods, bootstrapping and permutation. After evaluating which of the proposed
methods is most appropriate for summarization through two simulation
experiments, we analyze the results of applying these methods to several
different automatic evaluation metrics across three sets of human annotations.
We find that the confidence intervals are rather wide, demonstrating high
uncertainty in how reliable automatic metrics truly are. Further, although many
metrics fail to show statistical improvements over ROUGE, two recent works,
QAEval and BERTScore, do in some evaluation settings.
- Abstract(参考訳): 要約評価指標の品質は、そのスコアと人間のアノテーションの相関関係を多数の要約で計算することによって定量化する。
現在、これらの相関推定がどの程度正確か、あるいは2つのメトリクスの相関の差が真の違いを反映しているか、あるいはそれがランダムな確率によるものなのかは明らかになっていない。
本研究では,2つの再サンプリング手法,ブートストラップ法と置換法を用いて,信頼区間を計算し,相関関係の仮説テストを実行する方法を提案する。
提案手法のどれが2つのシミュレーション実験による要約に最も適しているか評価した後、これらの手法を3つのアノテーションセットの異なる自動評価指標に適用した結果を分析した。
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
さらに、多くのメトリクスはrougeに対する統計的改善を示すことができないが、qaevalとbertscoreの2つの最近の研究は、いくつかの評価設定で行われている。
関連論文リスト
- Semiparametric conformal prediction [79.6147286161434]
リスクに敏感なアプリケーションは、複数の、潜在的に相関したターゲット変数に対して、よく校正された予測セットを必要とする。
スコアをランダムなベクトルとして扱い、それらの連接関係構造を考慮した予測セットを構築することを目的とする。
実世界のレグレッション問題に対して,所望のカバレッジと競争効率について報告する。
論文 参考訳(メタデータ) (2024-11-04T14:29:02Z) - Quantifying Variance in Evaluation Benchmarks [34.12254884944099]
評価ベンチマークのばらつきは,初期化における種子のばらつき,訓練中の単調性などである。
選択タスクを完了タスクとしてフレーミングするといった単純な変更は、小さなスケールでの分散を減少させる可能性がある。
人間のテスト文献(項目分析や項目応答理論など)に触発されたより複雑な手法は、分散を有意義に減少させるのに苦労する。
論文 参考訳(メタデータ) (2024-06-14T17:59:54Z) - Mutual Wasserstein Discrepancy Minimization for Sequential
Recommendation [82.0801585843835]
逐次リコメンデーションのためのMutual WasserStein差分最小化MSteinに基づく新しい自己教師型学習フレームワークを提案する。
また,ワッサーシュタイン離散度測定に基づく新しい学習損失を提案する。
論文 参考訳(メタデータ) (2023-01-28T13:38:48Z) - How to Find Strong Summary Coherence Measures? A Toolbox and a
Comparative Study for Summary Coherence Measure Evaluation [3.434197496862117]
球面上での要約コヒーレンスモデリングのための様々な手法を大規模に検討する。
システム内相関とバイアス行列という2つの新しい分析尺度を導入し,コヒーレンス尺度のバイアスを識別し,システムレベルの共同設立者に対して堅牢性を提供する。
現在利用可能な自動コヒーレンス対策はいずれも、すべての評価指標にわたるシステム要約に信頼性の高いコヒーレンススコアを割り当てることはできないが、大規模言語モデルは、異なる要約の長さにわたって一般化する必要があることを考慮すれば、有望な結果を示す。
論文 参考訳(メタデータ) (2022-09-14T09:42:19Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - REAM$\sharp$: An Enhancement Approach to Reference-based Evaluation
Metrics for Open-domain Dialog Generation [63.46331073232526]
オープンドメイン対話システムにおける参照ベースのEvAluation Metricsの拡張手法を提案する。
予測モデルは、与えられた基準セットの信頼性を推定するように設計されている。
本稿では,その予測結果が参照集合の増大にどのように役立つかを示し,測定値の信頼性を向上させる。
論文 参考訳(メタデータ) (2021-05-30T10:04:13Z) - How to Evaluate a Summarizer: Study Design and Statistical Analysis for
Manual Linguistic Quality Evaluation [3.624563211765782]
評価手法の最良の選択は、ある側面から別の側面まで様々であることを示す。
その結果,アノテータの総数は研究力に強い影響を及ぼす可能性が示唆された。
現在の統計解析手法では、I型エラー率を最大8倍にすることができる。
論文 参考訳(メタデータ) (2021-01-27T10:14:15Z) - Uncertainty Quantification in Extreme Learning Machine: Analytical
Developments, Variance Estimates and Confidence Intervals [0.0]
不確かさの定量化は、機械学習モデルの予測品質を評価するために不可欠である。
文献で提案されるほとんどの手法は、データに対して強い仮定を行い、入力重みのランダム性を無視したり、信頼区間推定におけるバイアス寄与を無視したりする。
本稿では,これらの制約を克服し,EMMの多様性の理解を向上させる新しい推定法を提案する。
論文 参考訳(メタデータ) (2020-11-03T13:45:59Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。