論文の概要: Faithful Model Evaluation for Model-Based Metrics
- arxiv url: http://arxiv.org/abs/2312.17254v1
- Date: Tue, 19 Dec 2023 19:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 12:48:25.983501
- Title: Faithful Model Evaluation for Model-Based Metrics
- Title(参考訳): モデルに基づくメトリクスの忠実なモデル評価
- Authors: Palash Goyal, Qian Hu, Rahul Gupta
- Abstract要約: モデルに基づくメトリクスの重要度テストの数学的基礎を確立する。
モデルに基づく測定値のサンプル分散を計算するために, 計量モデル誤差を考慮すると, 特定の実験における結論が変化することを示す。
- 参考スコア(独自算出の注目度): 22.753929098534403
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Statistical significance testing is used in natural language processing (NLP)
to determine whether the results of a study or experiment are likely to be due
to chance or if they reflect a genuine relationship. A key step in significance
testing is the estimation of confidence interval which is a function of sample
variance. Sample variance calculation is straightforward when evaluating
against ground truth. However, in many cases, a metric model is often used for
evaluation. For example, to compare toxicity of two large language models, a
toxicity classifier is used for evaluation. Existing works usually do not
consider the variance change due to metric model errors, which can lead to
wrong conclusions. In this work, we establish the mathematical foundation of
significance testing for model-based metrics. With experiments on public
benchmark datasets and a production system, we show that considering metric
model errors to calculate sample variances for model-based metrics changes the
conclusions in certain experiments.
- Abstract(参考訳): 統計的に重要なテストは、自然言語処理(NLP)において、研究や実験の結果が偶然によるものか、真の関係を反映したものかを決定するために用いられる。
重要度試験における重要なステップは、サンプル分散の関数である信頼区間の推定である。
サンプル分散計算は、基礎的真理に対する評価が容易である。
しかし、多くの場合、メートル法モデルがしばしば評価に使用される。
例えば、2つの大きな言語モデルの毒性を比較するために、毒性分類器が評価に用いられる。
既存の作業は通常、計量モデルエラーによる分散変化を考慮せず、誤った結論につながる可能性がある。
本研究では,モデルベースメトリクスの重要度テストの数学的基礎を確立する。
公開ベンチマークデータセットと生産システムに関する実験により, モデルに基づく指標のサンプル分散を計算するために, 計量モデル誤差を考慮すると, 特定の実験の結論が変わることを示す。
関連論文リスト
- Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。
有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
論文 参考訳(メタデータ) (2024-08-19T17:52:38Z) - Toward Generalizable Machine Learning Models in Speech, Language, and
Hearing Sciences: Estimating Sample Size and Reducing Overfitting [1.8416014644193064]
本研究ではモンテカルロシミュレーションを用いて,採用したクロスバリデーション法と特徴の離散パワーの相互作用を定量化する。
単一ホールドアウトで必要なサンプルサイズは、ネストしたクロスバリデーションを使用する場合、必要なものよりも50%高い可能性がある。
論文 参考訳(メタデータ) (2023-08-22T05:14:42Z) - Logistic Regression Equivalence: A Framework for Comparing Logistic
Regression Models Across Populations [4.518012967046983]
本研究は, 個体群差に対する既定寛容レベルの同値試験が, 推論の精度を高めることを論じる。
診断データについては、等価モデルと等価でないモデルの例を示す。
論文 参考訳(メタデータ) (2023-03-23T15:12:52Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - Nonparametric Conditional Local Independence Testing [69.31200003384122]
条件付き局所独立は、連続的な時間プロセス間の独立関係である。
条件付き地域独立の非パラメトリックテストは行われていない。
二重機械学習に基づく非パラメトリックテストを提案する。
論文 参考訳(メタデータ) (2022-03-25T10:31:02Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z) - Evaluation metrics for behaviour modeling [2.616915680939834]
模倣学習を用いて学習した行動生成モデルの評価と比較のための指標を提案し,検討する。
これらの基準は、行動におけるより長い時間的関係を考察し、振る舞いが本質的に予測不可能な性質を持つ場合と関係し、モデルによって生成された行動の全体分布におけるバイアスを強調する。
提案手法は, 生物学者の行動に関する直観と一致し, モデルの評価, バイアスの理解, 新たな研究方向性の提案を可能にした。
論文 参考訳(メタデータ) (2020-07-23T23:47:24Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。