論文の概要: Quantifying Uncertainty and Variability in Machine Learning: Confidence Intervals for Quantiles in Performance Metric Distributions
- arxiv url: http://arxiv.org/abs/2501.16931v1
- Date: Tue, 28 Jan 2025 13:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:19.265324
- Title: Quantifying Uncertainty and Variability in Machine Learning: Confidence Intervals for Quantiles in Performance Metric Distributions
- Title(参考訳): 機械学習における不確かさと変数の定量化:パフォーマンスメトリック分布における量子の信頼区間
- Authors: Christoph Lehmann, Yahor Paromau,
- Abstract要約: マシンラーニングモデルは、信頼性と堅牢性が重要であるアプリケーションで広く使用されている。
モデル評価は、しばしば、モデルパフォーマンスの固有の変数をキャプチャできないパフォーマンスメトリクスの単一ポイント推定に依存します。
この貢献は、そのような分布を分析するために量子と信頼区間を使うことを探求し、モデルの性能とその不確実性についてより完全な理解を提供する。
- 参考スコア(独自算出の注目度): 0.17265013728931003
- License:
- Abstract: Machine learning models are widely used in applications where reliability and robustness are critical. Model evaluation often relies on single-point estimates of performance metrics such as accuracy, F1 score, or mean squared error, that fail to capture the inherent variability in model performance. This variability arises from multiple sources, including train-test split, weights initialization, and hyperparameter tuning. Investigating the characteristics of performance metric distributions, rather than focusing on a single point only, is essential for informed decision-making during model selection and optimization, especially in high-stakes settings. How does the performance metric vary due to intrinsic uncertainty in the selected modeling approach? For example, train-test split is modified, initial weights for optimization are modified or hyperparameter tuning is done using an algorithm with probabilistic nature? This is shifting the focus from identifying a single best model to understanding a distribution of the performance metric that captures variability across different training conditions. By running multiple experiments with varied settings, empirical distributions of performance metrics can be generated. Analyzing these distributions can lead to more robust models that generalize well across diverse scenarios. This contribution explores the use of quantiles and confidence intervals to analyze such distributions, providing a more complete understanding of model performance and its uncertainty. Aimed at a statistically interested audience within the machine learning community, the suggested approaches are easy to implement and apply to various performance metrics for classification and regression problems. Given the often long training times in ML, particular attention is given to small sample sizes (in the order of 10-25).
- Abstract(参考訳): マシンラーニングモデルは、信頼性と堅牢性が重要であるアプリケーションで広く使用されている。
モデル評価は、精度、F1スコア、平均2乗誤差などのパフォーマンス指標の単一点推定に依存しており、モデルの性能に固有の変動を捉えていないことが多い。
この可変性は、列車-テスト分割、重み付け初期化、ハイパーパラメータチューニングなど、複数のソースから生じる。
単一点のみに焦点をあてるのではなく、性能指標分布の特性を調べることは、モデル選択と最適化の間、特に高精度な設定において、情報的意思決定に不可欠である。
選択したモデリング手法における本質的な不確実性により,パフォーマンス指標はどのように変化するのか?
例えば、列車とテストの分割が変更され、最適化のための初期重みが修正されるか、ハイパーパラメータチューニングが確率論的性質を持つアルゴリズムを使って行われるか?
これは、単一のベストモデルを特定することから、異なるトレーニング条件間の変動をキャプチャするパフォーマンスメトリックの分布を理解することへの焦点をシフトしている。
さまざまな設定で複数の実験を実行することで、パフォーマンスメトリクスの実証的な分布を生成することができる。
これらの分布を分析することで、様々なシナリオをうまく一般化するより堅牢なモデルが得られる。
この貢献は、そのような分布を分析するために量子と信頼区間を使うことを探求し、モデルの性能とその不確実性についてより完全な理解を提供する。
機械学習コミュニティ内の統計的に興味のある聴衆を対象として、提案されたアプローチは簡単に実装でき、分類と回帰問題に対する様々なパフォーマンス指標に適用できる。
MLでしばしば長いトレーニング時間を考えると、小さなサンプルサイズ(10-25の順)に特に注意が向けられる。
関連論文リスト
- Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Towards Understanding Variants of Invariant Risk Minimization through the Lens of Calibration [0.6906005491572401]
本稿では,Information BottleneckをベースとしたITMが,異なる環境における一貫したキャリブレーションを実現することを示す。
私たちの経験的証拠は、環境全体にわたって一貫した校正を示すモデルも十分に校正されていることを示している。
論文 参考訳(メタデータ) (2024-01-31T02:08:43Z) - Variational Factorization Machines for Preference Elicitation in
Large-Scale Recommender Systems [17.050774091903552]
本稿では, 標準のミニバッチ降下勾配を用いて容易に最適化できる因子化機械 (FM) の変分定式化を提案する。
提案アルゴリズムは,ユーザおよび項目パラメータに近似した後続分布を学習し,予測に対する信頼区間を導出する。
いくつかのデータセットを用いて、予測精度の点で既存の手法と同等または優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T00:06:28Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Predicting Out-of-Domain Generalization with Neighborhood Invariance [59.05399533508682]
局所変換近傍における分類器の出力不変性の尺度を提案する。
私たちの測度は計算が簡単で、テストポイントの真のラベルに依存しません。
画像分類,感情分析,自然言語推論のベンチマーク実験において,我々の測定値と実際のOOD一般化との間に強い相関関係を示す。
論文 参考訳(メタデータ) (2022-07-05T14:55:16Z) - Uncertainty Modeling for Out-of-Distribution Generalization [56.957731893992495]
特徴統計を適切に操作することで、ディープラーニングモデルの一般化能力を向上させることができると論じる。
一般的な手法では、特徴統計を学習した特徴から測定された決定論的値とみなすことが多い。
我々は、学習中に合成された特徴統計を用いて、領域シフトの不確かさをモデル化することにより、ネットワークの一般化能力を向上させる。
論文 参考訳(メタデータ) (2022-02-08T16:09:12Z) - Post-hoc Models for Performance Estimation of Machine Learning Inference [22.977047604404884]
さまざまなシナリオにおいて、推論中に機械学習モデルがどれだけうまく機能するかを推定することが重要である。
性能評価をさまざまなメトリクスやシナリオに体系的に一般化する。
提案したポストホックモデルは標準信頼ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-06T02:20:37Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。