論文の概要: The statistical advantage of automatic NLG metrics at the system level
- arxiv url: http://arxiv.org/abs/2105.12437v2
- Date: Fri, 13 Dec 2024 19:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:33.239270
- Title: The statistical advantage of automatic NLG metrics at the system level
- Title(参考訳): システムレベルでの自動NLG測定値の統計的利点
- Authors: Johnny Tian-Zheng Wei, Robin Jia,
- Abstract要約: 統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。
ブートストラップを用いて、これらの推定器の誤差をペアワイズ予測(どの生成システムが優れているか?)で比較する。
分析では,測定値の補正誤差を人間と完全セグメントレベルのアノテータと比較した。
- 参考スコア(独自算出の注目度): 23.12467573182206
- License:
- Abstract: Estimating the expected output quality of generation systems is central to NLG. This paper qualifies the notion that automatic metrics are not as good as humans in estimating system-level quality. Statistically, humans are unbiased, high variance estimators, while metrics are biased, low variance estimators. We compare these estimators by their error in pairwise prediction (which generation system is better?) using the bootstrap. Measuring this error is complicated: predictions are evaluated against noisy, human predicted labels instead of the ground truth, and metric predictions fluctuate based on the test sets they were calculated on. By applying a bias-variance-noise decomposition, we adjust this error to a noise-free, infinite test set setting. Our analysis compares the adjusted error of metrics to humans and a derived, perfect segment-level annotator, both of which are unbiased estimators dependent on the number of judgments collected. In MT, we identify two settings where metrics outperform humans due to a statistical advantage in variance: when the number of human judgments used is small, and when the quality difference between compared systems is small. The data and code to reproduce our analyses are available at https://github.com/johntzwei/metric-statistical-advantage .
- Abstract(参考訳): 生成システムの期待される出力品質を推定することは、NLGの中心である。
本稿では,システムレベルの品質を推定する上で,自動測定値が人間に劣るという考えを定式化する。
統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。
ブートストラップを用いて、これらの推定器の誤差をペアワイズ予測(どの生成システムが優れているか?)で比較する。
この誤差を測定することは複雑で、予測はノイズに対して評価され、人間は真実ではなくラベルを予測し、計量予測は計算されたテストセットに基づいて変動する。
バイアス分散雑音分解を適用することにより、この誤差をノイズフリーで無限のテストセット設定に調整する。
分析では,測定値の補正誤差を人間と完全セグメントレベルのアノテータと比較した。
MTでは,人的判断数が少ない場合と,比較したシステム間の品質差が小さい場合とで,測定値が統計的優位性により人間より優れる2つの設定を同定する。
我々の分析を再現するデータとコードは、https://github.com/johntzwei/metric-statistical-Advantage で入手できる。
関連論文リスト
- What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Leveraging Variational Autoencoders for Parameterized MMSE Estimation [10.141454378473972]
条件付き線形最小二乗誤差推定器のパラメータ化のための変分オートエンコーダに基づくフレームワークを提案する。
導出した推定器は、推定問題の生成前として変分オートエンコーダを用いて最小平均2乗誤差推定器を近似する。
提案手法と最小平均二乗誤差推定器の差分を限定して厳密な解析を行う。
論文 参考訳(メタデータ) (2023-07-11T15:41:34Z) - On Fairness and Stability: Is Estimator Variance a Friend or a Foe? [6.751310968561177]
分散度におけるグループワイドパリティに基づく新しいパフォーマンス指標群を提案する。
フェアネス分析による不確実性定量化手法を再現したオープンソースライブラリを開発し,リリースする。
論文 参考訳(メタデータ) (2023-02-09T09:35:36Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - Analysis and Comparison of Classification Metrics [12.092755413404245]
システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクが含まれる。
これらの測定値を用いてシステムのキャリブレーション損失を計算し、この測定値を広く使用されている予測キャリブレーション誤差(ECE)と比較する。
論文 参考訳(メタデータ) (2022-09-12T16:06:10Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Expected Validation Performance and Estimation of a Random Variable's
Maximum [48.83713377993604]
予測された検証性能に対する3つの統計的推定器を解析する。
偏りのない推定器は最も分散度が高く、最小分散度を持つ推定器は最大のバイアスを持つ。
2つの偏りのある推定器は、最も少ない誤った結論につながる。
論文 参考訳(メタデータ) (2021-10-01T18:48:47Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。