論文の概要: Detecting model drift using polynomial relations
- arxiv url: http://arxiv.org/abs/2110.12506v1
- Date: Sun, 24 Oct 2021 18:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 10:15:39.254154
- Title: Detecting model drift using polynomial relations
- Title(参考訳): 多項式関係を用いたモデルドリフトの検出
- Authors: Eliran Roffe, Samuel Ackerman, Orna Raz and Eitan Farchi
- Abstract要約: 我々は,データ特徴間の関係を同定し,データ分布の変化を検出する新しい手法を提案する。
同定された関係の強さをR-二乗値を用いて測定する。
我々は,3つの公開データセットにおける様々な変化をシミュレートすることで,このアプローチを実証的に検証する。
- 参考スコア(独自算出の注目度): 1.1011268090482575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) models serve critical functions, such as classifying
loan applicants as good or bad risks. Each model is trained under the
assumption that the data used in training, and the data used in field come from
the same underlying unknown distribution. Often this assumption is broken in
practice. It is desirable to identify when this occurs in order to minimize the
impact on model performance.
We suggest a new approach to detect change in the data distribution by
identifying polynomial relations between the data features. We measure the
strength of each identified relation using its R-square value. A strong
polynomial relation captures a significant trait of the data which should
remain stable if the data distribution does not change. We thus use a set of
learned strong polynomial relations to identify drift. For a set of polynomial
relations that are stronger than a given desired threshold, we calculate the
amount of drift observed for that relation. The amount of drift is estimated by
calculating the Bayes Factor for the polynomial relation likelihood of the
baseline data versus field data. We empirically validate the approach by
simulating a range of changes in three publicly-available data sets, and
demonstrate the ability to identify drift using the Bayes Factor of the
polynomial relation likelihood change.
- Abstract(参考訳): 機械学習(ml)モデルは、ローン申請者を良いまたは悪いリスクに分類するなど、重要な機能を提供します。
各モデルは、トレーニングで使用されるデータと、フィールドで使用されるデータは、基礎となる未知の分布から来ると仮定して訓練される。
多くの場合、この仮定は実際には破られる。
モデルパフォーマンスへの影響を最小限に抑えるために、これがいつ発生するかを特定することが望ましい。
本研究では,データ特徴間の多項式関係を同定し,データ分布の変化を検出する新しい手法を提案する。
同定された関係の強度をr-平方値を用いて測定する。
強い多項式関係は、データ分布が変化しなければ安定していなければならないデータの重要な特性を捕捉する。
したがって,学習した強多項式関係を用いてドリフトを同定する。
与えられた所望しきい値よりも強い多項式関係の集合に対して、その関係で観測されるドリフトの量を計算する。
ベースラインデータとフィールドデータとの多項式関係性についてベイズ係数を計算することによりドリフトの量を推定する。
本研究では,3つの公開データセットにおける変化範囲をシミュレートし,多項式関係の確率変化のベイズ係数を用いてドリフトを識別できることを実証的に検証する。
関連論文リスト
- Multivariate Functional Linear Discriminant Analysis for the
Classification of Short Time Series with Missing Data [0.0]
機能線形判別分析(FLDA)はLDAを介する多クラス分類を拡張する強力なツールである。
MUDRAは、欠落したデータの割合の大きなデータセットの解釈可能な分類を可能にする。
論文 参考訳(メタデータ) (2024-02-20T15:58:45Z) - Approximating Counterfactual Bounds while Fusing Observational, Biased
and Randomised Data Sources [64.96984404868411]
我々は、複数の、偏見のある、観察的、介入的な研究からのデータを統合するという問題に対処する。
利用可能なデータの可能性は局所的な最大値を持たないことを示す。
次に、同じアプローチが複数のデータセットの一般的なケースにどのように対処できるかを示す。
論文 参考訳(メタデータ) (2023-07-31T11:28:24Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Bayesian predictive modeling of multi-source multi-way data [0.0]
初期鉄欠乏症 (ID) の予測因子として, 複数のオミクス源から得られた分子データについて検討した。
係数に低ランク構造を持つ線形モデルを用いて多方向依存を捕捉する。
本モデルでは, 誤分類率と推定係数と真の係数との相関から, 期待通りの性能を示すことを示す。
論文 参考訳(メタデータ) (2022-08-05T21:58:23Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Scalable Bayesian Network Structure Learning with Splines [2.741266294612776]
ベイズネットワーク(英: Bayesian Network, BN)は、有向非巡回グラフ(DAG)からなる確率的グラフィカルモデルである。
本稿では,BNのグローバルDAG構造を学習し,変数間の線形および非線形な局所関係をモデル化する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-27T17:54:53Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Relating the Partial Dependence Plot and Permutation Feature Importance
to the Data Generating Process [1.3782922287772585]
部分依存プロットと置換特徴重要度(PFI)は解釈法としてよく用いられる。
我々はPDとPFIを,データ生成過程に根ざした基底真理推定の統計的推定器として定式化する。
PDとPFIは, 統計バイアス, モデル分散, モンテカルロ近似誤差により, この基礎的真理から逸脱することを示す。
論文 参考訳(メタデータ) (2021-09-03T10:50:41Z) - Link Prediction on N-ary Relational Data Based on Relatedness Evaluation [61.61555159755858]
我々は,n-aryリレーショナルデータ上でリンク予測を行うNaLPという手法を提案する。
各 n 個の関係事実を、その役割と役割と値のペアの集合として表現する。
実験結果は,提案手法の有効性と有用性を検証した。
論文 参考訳(メタデータ) (2021-04-21T09:06:54Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Disentangled Recurrent Wasserstein Autoencoder [17.769077848342334]
Recurrent Wasserstein Autoencoder (R-WAE)はシーケンシャルデータの生成モデリングのための新しいフレームワークである。
R-WAEは入力シーケンスの表現を静的および動的因子に切り離す。
私達のモデルは無条件のビデオ生成およびdisentanglementの点では同じ設定の他のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-19T07:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。