論文の概要: Expected Validation Performance and Estimation of a Random Variable's
Maximum
- arxiv url: http://arxiv.org/abs/2110.00613v1
- Date: Fri, 1 Oct 2021 18:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 06:42:39.687618
- Title: Expected Validation Performance and Estimation of a Random Variable's
Maximum
- Title(参考訳): 確率変数の最大値の期待検証性能と推定
- Authors: Jesse Dodge, Suchin Gururangan, Dallas Card, Roy Schwartz, Noah A.
Smith
- Abstract要約: 予測された検証性能に対する3つの統計的推定器を解析する。
偏りのない推定器は最も分散度が高く、最小分散度を持つ推定器は最大のバイアスを持つ。
2つの偏りのある推定器は、最も少ない誤った結論につながる。
- 参考スコア(独自算出の注目度): 48.83713377993604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in NLP is often supported by experimental results, and improved
reporting of such results can lead to better understanding and more
reproducible science. In this paper we analyze three statistical estimators for
expected validation performance, a tool used for reporting performance (e.g.,
accuracy) as a function of computational budget (e.g., number of hyperparameter
tuning experiments). Where previous work analyzing such estimators focused on
the bias, we also examine the variance and mean squared error (MSE). In both
synthetic and realistic scenarios, we evaluate three estimators and find the
unbiased estimator has the highest variance, and the estimator with the
smallest variance has the largest bias; the estimator with the smallest MSE
strikes a balance between bias and variance, displaying a classic bias-variance
tradeoff. We use expected validation performance to compare between different
models, and analyze how frequently each estimator leads to drawing incorrect
conclusions about which of two models performs best. We find that the two
biased estimators lead to the fewest incorrect conclusions, which hints at the
importance of minimizing variance and MSE.
- Abstract(参考訳): NLPの研究は、しばしば実験結果によって支持され、そのような結果の報告の改善は、より良い理解と再現可能な科学をもたらす。
本稿では,計算予算(ハイパーパラメータチューニング実験数)の関数として,性能(精度など)を報告するツールとして,予測された検証性能の統計的推定器を3つ分析する。
このような推定器がバイアスに焦点をあてた以前の研究では、分散と平均二乗誤差(MSE)についても検討した。
合成と現実の両方のシナリオにおいて、3つの推定器を評価し、バイアスのない推定器が最もばらつきが大きいこと、最小の分散を持つ推定器が最大のバイアスを持つこと、最小のMSEを持つ推定器がバイアスとばらつきのバランスをとり、古典的なバイアスとばらつきのトレードオフを示す。
予測バリデーション性能を用いて、異なるモデルの比較を行い、各推定器がどのモデルが最もよく機能するかの誤った結論を導出する頻度を分析する。
この2つの偏差推定器は, 分散とMSEの最小化の重要性を示唆する最少の誤った結論を導いた。
関連論文リスト
- Precise Model Benchmarking with Only a Few Observations [6.092112060364272]
本稿では,各サブグループの直接推定と回帰推定を個別にバランスする経験的ベイズ推定器を提案する。
EBは、直接的および回帰的アプローチと比較して、LCM性能のより正確な推定を一貫して提供する。
論文 参考訳(メタデータ) (2024-10-07T17:26:31Z) - High Precision Causal Model Evaluation with Conditional Randomization [10.23470075454725]
因果誤差を推定するための新しい低分散推定器(ペア推定器)を提案する。
モデルと真の実験効果の両方に同じIPW推定器を適用することにより、IPWによる分散を効果的にキャンセルし、より小さな分散を実現する。
提案手法は,IPW推定器自体の複雑な変更を伴わずに,条件付きランダム化設定における因果推論モデルを評価するための,単純かつ強力な解を提供する。
論文 参考訳(メタデータ) (2023-11-03T13:22:27Z) - De-biasing "bias" measurement [20.049916973204102]
グループワイドモデルの性能格差を測定するために用いられる指標は、それらが表す基礎となる量の統計的偏りの推定値であることを示す。
本稿では,グループ間におけるモデル性能のばらつきの非バイアス推定と不確実性定量化を行う「二重補正分散推定器」を提案する。
論文 参考訳(メタデータ) (2022-05-11T20:51:57Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Machine Learning for Variance Reduction in Online Experiments [1.9181913148426697]
MLRATEと呼ばれる機械学習回帰調整処理効果推定器を提案する。
MLRATEは、結果の機械学習予測器を使用して推定値の分散を低減する。
A/Aテストでは、Facebookの実験で一般的に監視される48の結果メトリクスのセットに対して、推定器は単純な差分推定器よりも70%以上低いばらつきを持つ。
論文 参考訳(メタデータ) (2021-06-14T09:35:54Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - CoinPress: Practical Private Mean and Covariance Estimation [18.6419638570742]
多変量準ガウスデータの平均と共分散に対する単純な微分プライベート推定器を提案する。
これらの誤差率は最先端の理論的境界値と一致し, 従来手法よりも顕著に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-11T17:17:28Z) - Showing Your Work Doesn't Always Work [73.63200097493576]
『Show Your Work: Improved Reporting of Experimental Results』では、最高の学習モデルの有効性を報告している。
解析的にそれらの推定器は偏りがあり、エラーを起こしやすい仮定を用いていることを示す。
我々は、偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。
論文 参考訳(メタデータ) (2020-04-28T17:59:01Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。