論文の概要: The Lifecycle of a Statistical Model: Model Failure Detection,
Identification, and Refitting
- arxiv url: http://arxiv.org/abs/2202.04166v1
- Date: Tue, 8 Feb 2022 22:02:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 15:36:17.174634
- Title: The Lifecycle of a Statistical Model: Model Failure Detection,
Identification, and Refitting
- Title(参考訳): 統計的モデルのライフサイクル:モデル障害の検出、同定、再フィッティング
- Authors: Alnur Ali, Maxime Cauchois, John C. Duchi
- Abstract要約: モデル性能が低下し始めた共変量空間(サブポピュレーション)の領域を検出し同定するためのツールと理論を開発した。
実世界の3つのデータセットを用いて実験結果を示す。
我々はこれらの実験結果を補足し、我々の手法が異常なサブ集団の回復に最適であることを示す理論で補足する。
- 参考スコア(独自算出の注目度): 26.351782287953267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The statistical machine learning community has demonstrated considerable
resourcefulness over the years in developing highly expressive tools for
estimation, prediction, and inference. The bedrock assumptions underlying these
developments are that the data comes from a fixed population and displays
little heterogeneity. But reality is significantly more complex: statistical
models now routinely fail when released into real-world systems and scientific
applications, where such assumptions rarely hold. Consequently, we pursue a
different path in this paper vis-a-vis the well-worn trail of developing new
methodology for estimation and prediction. In this paper, we develop tools and
theory for detecting and identifying regions of the covariate space
(subpopulations) where model performance has begun to degrade, and study
intervening to fix these failures through refitting. We present empirical
results with three real-world data sets -- including a time series involving
forecasting the incidence of COVID-19 -- showing that our methodology generates
interpretable results, is useful for tracking model performance, and can boost
model performance through refitting. We complement these empirical results with
theory proving that our methodology is minimax optimal for recovering anomalous
subpopulations as well as refitting to improve accuracy in a structured normal
means setting.
- Abstract(参考訳): 統計的機械学習コミュニティは、予測、予測、推測のための非常に表現力のあるツールの開発において、長年にわたってかなりの資源を誇示してきた。
これらの発展の根底にある岩盤の仮定は、データは固定された個体群から来ており、不均一性がほとんどないということである。
しかし、現実ははるかに複雑で、統計モデルが現実のシステムや科学アプリケーションに放たれると、日常的に失敗する。
そこで本論文では,推定と予測のための新しい手法の開発について,異なる経路を追究する。
本稿では,モデル性能が低下し始めている共変量空間(サブポピュレーション)の領域を検出し,同定するためのツールと理論を開発し,これらの障害を修復する手法について検討する。
本稿では,3つの実世界のデータセット(新型コロナウイルスの発生を予測する時系列を含む)を用いた実証実験の結果から,本手法が解釈可能な結果を生成すること,モデル性能の追跡に有用であること,リフィットによるモデル性能の向上が期待できることを示す。
これらの実験結果を補足し,本手法が異常な部分人口の回復に最適であることを示す理論と,構造的正規性設定における精度向上のための再フィッティングによって補完する。
関連論文リスト
- Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications [0.0]
本研究では,合成データを用いたモデル適応と一般化について検討する。
我々は、データ類似性を評価するために、Kullback-Leiblerの発散、Jensen-Shannon距離、Mahalanobis距離などの量的尺度を用いる。
本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,あるいは高誤差の「補間体制」が分布変化とモデル不確実性を評価するための補完的手法を提供することを示唆している。
論文 参考訳(メタデータ) (2024-05-03T10:05:31Z) - Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Source-Free Unsupervised Domain Adaptation with Hypothesis Consolidation
of Prediction Rationale [53.152460508207184]
Source-Free Unsupervised Domain Adaptation (SFUDA)は、モデルがターゲットのドメインラベルやソースドメインデータにアクセスせずに新しいドメインに適応する必要がある、という課題である。
本稿では,各サンプルについて複数の予測仮説を考察し,各仮説の背景にある理論的根拠について考察する。
最適性能を達成するために,モデル事前適応,仮説統合,半教師付き学習という3段階の適応プロセスを提案する。
論文 参考訳(メタデータ) (2024-02-02T05:53:22Z) - Uncertainty estimation for time series forecasting via Gaussian process
regression surrogates [0.8733767481819791]
代用ガウス過程モデルに基づく不確実性推定法を提案する。
提案手法は,任意のベースモデルに対して,個別のサロゲートが生成した正確な不確実性推定を行うことができる。
他の手法と比較して、見積もりは1つの追加モデルだけで計算的に有効である。
論文 参考訳(メタデータ) (2023-02-06T14:52:56Z) - Causality and Generalizability: Identifiability and Learning Methods [0.0]
この論文は、因果効果の推定、因果構造学習、および分布的に堅牢な予測方法に関する研究領域に寄与する。
本稿では,データ依存平均二乗予測誤差正規化を用いた機器変数設定における線形・非線形因果関係推定器について述べる。
本稿では,介入誘起分布に関する分布ロバスト性に関する一般的な枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-04T13:12:11Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z) - A comprehensive study on the prediction reliability of graph neural
networks for virtual screening [0.0]
本稿では,モデルアーキテクチャ,正規化手法,損失関数が分類結果の予測性能および信頼性に与える影響について検討する。
その結果,高い成功率を達成するためには,正則化と推論手法の正しい選択が重要であることが明らかとなった。
論文 参考訳(メタデータ) (2020-03-17T10:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。