論文の概要: The statistical advantage of automatic NLG metrics at the system level
- arxiv url: http://arxiv.org/abs/2105.12437v2
- Date: Fri, 13 Dec 2024 19:16:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:51:33.239270
- Title: The statistical advantage of automatic NLG metrics at the system level
- Title(参考訳): システムレベルでの自動NLG測定値の統計的利点
- Authors: Johnny Tian-Zheng Wei, Robin Jia,
- Abstract要約: 統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。
ブートストラップを用いて、これらの推定器の誤差をペアワイズ予測(どの生成システムが優れているか?)で比較する。
分析では,測定値の補正誤差を人間と完全セグメントレベルのアノテータと比較した。
- 参考スコア(独自算出の注目度): 23.12467573182206
- License:
- Abstract: Estimating the expected output quality of generation systems is central to NLG. This paper qualifies the notion that automatic metrics are not as good as humans in estimating system-level quality. Statistically, humans are unbiased, high variance estimators, while metrics are biased, low variance estimators. We compare these estimators by their error in pairwise prediction (which generation system is better?) using the bootstrap. Measuring this error is complicated: predictions are evaluated against noisy, human predicted labels instead of the ground truth, and metric predictions fluctuate based on the test sets they were calculated on. By applying a bias-variance-noise decomposition, we adjust this error to a noise-free, infinite test set setting. Our analysis compares the adjusted error of metrics to humans and a derived, perfect segment-level annotator, both of which are unbiased estimators dependent on the number of judgments collected. In MT, we identify two settings where metrics outperform humans due to a statistical advantage in variance: when the number of human judgments used is small, and when the quality difference between compared systems is small. The data and code to reproduce our analyses are available at https://github.com/johntzwei/metric-statistical-advantage .
- Abstract(参考訳): 生成システムの期待される出力品質を推定することは、NLGの中心である。
本稿では,システムレベルの品質を推定する上で,自動測定値が人間に劣るという考えを定式化する。
統計的には、人間は偏りがなく、高分散推定器であり、メトリクスは偏りがあり、低分散推定器である。
ブートストラップを用いて、これらの推定器の誤差をペアワイズ予測(どの生成システムが優れているか?)で比較する。
この誤差を測定することは複雑で、予測はノイズに対して評価され、人間は真実ではなくラベルを予測し、計量予測は計算されたテストセットに基づいて変動する。
バイアス分散雑音分解を適用することにより、この誤差をノイズフリーで無限のテストセット設定に調整する。
分析では,測定値の補正誤差を人間と完全セグメントレベルのアノテータと比較した。
MTでは,人的判断数が少ない場合と,比較したシステム間の品質差が小さい場合とで,測定値が統計的優位性により人間より優れる2つの設定を同定する。
我々の分析を再現するデータとコードは、https://github.com/johntzwei/metric-statistical-Advantage で入手できる。
関連論文リスト
- What should an AI assessor optimise for? [57.96463917842822]
AIアセスタ(AI Assessmentor)は、他のAIシステムの指標(損失値など)を予測する、外的、理想的には不適切なシステムである。
ここでは、問題に対処する: 常にターゲットメトリックのアセスメントをトレーニングするのが最適か?
本研究では, モノトニック写像と非モノトニック写像を用いた回帰損失と分類スコアについて実験的に検討した。
論文 参考訳(メタデータ) (2025-02-01T08:41:57Z) - Prediction-Powered Inference with Imputed Covariates and Nonuniform Sampling [20.078602767179355]
機械学習予測におけるエラーを適切に説明できないことは、標準的な統計手順を無効にする。
我々は、完全なデータが一様でないサンプル(重み付け、成層化、クラスタ化)である場合に適用されるブートストラップの信頼区間と、任意の機能のサブセットが暗示される設定を紹介する。
これらの信頼区間は、機械学習モデルの品質を仮定せずに有効であり、機械学習予測を使用しない手法によって得られる区間よりも広くないことを示す。
論文 参考訳(メタデータ) (2025-01-30T18:46:43Z) - Leveraging Variational Autoencoders for Parameterized MMSE Estimation [10.141454378473972]
条件付き線形最小二乗誤差推定器のパラメータ化のための変分オートエンコーダに基づくフレームワークを提案する。
導出した推定器は、推定問題の生成前として変分オートエンコーダを用いて最小平均2乗誤差推定器を近似する。
提案手法と最小平均二乗誤差推定器の差分を限定して厳密な解析を行う。
論文 参考訳(メタデータ) (2023-07-11T15:41:34Z) - On Fairness and Stability: Is Estimator Variance a Friend or a Foe? [6.751310968561177]
分散度におけるグループワイドパリティに基づく新しいパフォーマンス指標群を提案する。
フェアネス分析による不確実性定量化手法を再現したオープンソースライブラリを開発し,リリースする。
論文 参考訳(メタデータ) (2023-02-09T09:35:36Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - Analysis and Comparison of Classification Metrics [12.092755413404245]
システムスコアの測定基準には、ROC曲線下の領域、等誤差率、クロスエントロピー、ブライアスコア、ベイズECまたはベイズリスクが含まれる。
これらの測定値を用いてシステムのキャリブレーション損失を計算し、この測定値を広く使用されている予測キャリブレーション誤差(ECE)と比較する。
論文 参考訳(メタデータ) (2022-09-12T16:06:10Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Newer is not always better: Rethinking transferability metrics, their
peculiarities, stability and performance [5.650647159993238]
小さなカスタマイズされたデータセット上で、大規模で事前訓練された画像と言語モデルの微調整が人気を集めている。
共分散推定における統計的問題により,Hスコアの性能が低下することが示唆された。
そこで我々は,そのような設定における相対的精度に対する相関性能を補正し,評価することを推奨する。
論文 参考訳(メタデータ) (2021-10-13T17:24:12Z) - Expected Validation Performance and Estimation of a Random Variable's
Maximum [48.83713377993604]
予測された検証性能に対する3つの統計的推定器を解析する。
偏りのない推定器は最も分散度が高く、最小分散度を持つ推定器は最大のバイアスを持つ。
2つの偏りのある推定器は、最も少ない誤った結論につながる。
論文 参考訳(メタデータ) (2021-10-01T18:48:47Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。