論文の概要: Improving Statistical Significance in Human Evaluation of Automatic Metrics via Soft Pairwise Accuracy
- arxiv url: http://arxiv.org/abs/2409.09598v1
- Date: Sun, 15 Sep 2024 03:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:07:53.460402
- Title: Improving Statistical Significance in Human Evaluation of Automatic Metrics via Soft Pairwise Accuracy
- Title(参考訳): ソフトペアワイズ精度による自動計量の人的評価における統計的意義の改善
- Authors: Brian Thompson, Nitika Mathur, Daniel Deutsch, Huda Khayrallah,
- Abstract要約: 本稿では,Pairwise Accuracy(PA)に基づく新しいメタメトリックを提案する。
SPAは2024年のWMTメートル法共有タスクの公式なシステムレベルメトリックとして選ばれた。
- 参考スコア(独自算出の注目度): 10.487125740432681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting an automatic metric that best emulates human judgments is often non-trivial, because there is no clear definition of "best emulates." A meta-metric is required to compare the human judgments to the automatic metric judgments, and metric rankings depend on the choice of meta-metric. We propose Soft Pairwise Accuracy (SPA), a new meta-metric that builds on Pairwise Accuracy (PA) but incorporates the statistical significance of both the human judgments and the metric judgments. SPA allows for more fine-grained comparisons between systems than a simplistic binary win/loss, and addresses a number of shortcomings with PA: it is more stable with respect to both the number of systems and segments used for evaluation, it mitigates the issue of metric ties due to quantization, and it produces more statistically significant results. SPA was selected as the official system-level metric for the 2024 WMT metric shared task.
- Abstract(参考訳): 人間の判断を最もよくエミュレートする自動計量を選択することは、しばしば「ベストエミュレート」という明確な定義がないため、自明ではない。
メタメトリックは、人間の判断と自動メートル法判断を比較するために必要であり、メートル法ランキングはメタメトリックの選択に依存する。
我々は,Pairwise Accuracy(PA)に基づく新しいメタメトリックであるSoft Pairwise Accuracy(SPA)を提案する。
SPAは、単純なバイナリの勝敗よりも、システム間のよりきめ細かい比較を可能にし、PAとの多くの欠点に対処する: 評価に使用されるシステムとセグメントの数に関してより安定であり、量子化による計量関係の問題を軽減する。
SPAは2024年のWMTメートル法共有タスクの公式なシステムレベルメトリックとして選ばれた。
関連論文リスト
- Bayesian Prediction-Powered Inference [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
本稿では,ベイズ推定に基づくPPIのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-09T18:08:58Z) - Navigating the Metrics Maze: Reconciling Score Magnitudes and Accuracies [24.26653413077486]
10年前、単一のメトリクスBLEUが機械翻訳研究の進歩を支配した。
本稿では,現代のメトリクスの「ダイナミックレンジ」について考察する。
論文 参考訳(メタデータ) (2024-01-12T18:47:40Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Joint Metrics Matter: A Better Standard for Trajectory Forecasting [67.1375677218281]
マルチモーダル・トラジェクトリ・予測法 : シングルエージェント・メトリクス(マージナル・メトリクス)を用いた評価
余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡のばらつきといった、不自然な予測につながる可能性がある。
本稿では,JADE,JFDE,衝突速度といったマルチエージェントメトリクス(ジョイントメトリクス)に関して,最先端トラジェクトリ予測手法の総合評価を行った。
論文 参考訳(メタデータ) (2023-05-10T16:27:55Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - The statistical advantage of automatic NLG metrics at the system level [10.540821585237222]
統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。
ブートストラップを用いて、これらの推定器の誤差をペアワイズ予測(どの生成システムが優れているか?)で比較する。
分析では,測定値の補正誤差を人間と完全セグメントレベルのアノテータと比較した。
論文 参考訳(メタデータ) (2021-05-26T09:53:57Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Evaluating Large-Vocabulary Object Detectors: The Devil is in the
Details [107.2722027807328]
我々は、APのデフォルト実装はカテゴリー独立ではなく、適切に校正された検出器を直接報酬するものではないことを発見した。
既定の実装ではゲーム可能なメトリックが生成され、単純で非合理的な再ランクポリシーがAPを大きなマージンで改善できることが示される。
我々は,近年の大規模語彙検出の進歩をベンチマークし,新たなクラスごとの独立性評価において,多くの報告された利益が改善に結びついていないことを発見した。
論文 参考訳(メタデータ) (2021-02-01T18:56:02Z) - AMR Similarity Metrics from Principles [21.915057426589748]
我々は、AMRのような意味表現と比較する指標を、研究者が原則的に評価できる基準を確立する。
偏差をわずかに意味することはより好意的であり、確立された全ての基準を満たすことを目標とする新しい計量 S$2$match を提案する。
論文 参考訳(メタデータ) (2020-01-29T16:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。