論文の概要: Weight-of-evidence 2.0 with shrinkage and spline-binning
- arxiv url: http://arxiv.org/abs/2101.01494v2
- Date: Tue, 2 Feb 2021 08:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 17:43:04.427799
- Title: Weight-of-evidence 2.0 with shrinkage and spline-binning
- Title(参考訳): 収縮とスプラインバイニングを備えたエビデンス2.0
- Authors: Jakob Raymaekers, Wouter Verbeke, Tim Verdonck
- Abstract要約: 分類予測器を変換するための形式化、データ駆動、強力な方法を提案する。
我々は,重み付け手法を拡張し,縮尺推定器を用いて比例を推定することを提案する。
本稿では,提案手法の有効性を示す詐欺検出セットにおける一連の実験結果を示す。
- 参考スコア(独自算出の注目度): 3.925373521409752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many practical applications, such as fraud detection, credit risk modeling
or medical decision making, classification models for assigning instances to a
predefined set of classes are required to be both precise as well as
interpretable. Linear modeling methods such as logistic regression are often
adopted, since they offer an acceptable balance between precision and
interpretability. Linear methods, however, are not well equipped to handle
categorical predictors with high-cardinality or to exploit non-linear relations
in the data. As a solution, data preprocessing methods such as
weight-of-evidence are typically used for transforming the predictors. The
binning procedure that underlies the weight-of-evidence approach, however, has
been little researched and typically relies on ad-hoc or expert driven
procedures. The objective in this paper, therefore, is to propose a formalized,
data-driven and powerful method.
To this end, we explore the discretization of continuous variables through
the binning of spline functions, which allows for capturing non-linear effects
in the predictor variables and yields highly interpretable predictors taking
only a small number of discrete values. Moreover, we extend upon the
weight-of-evidence approach and propose to estimate the proportions using
shrinkage estimators. Together, this offers an improved ability to exploit both
non-linear and categorical predictors for achieving increased classification
precision, while maintaining interpretability of the resulting model and
decreasing the risk of overfitting.
We present the results of a series of experiments in a fraud detection
setting, which illustrate the effectiveness of the presented approach. We
facilitate reproduction of the presented results and adoption of the proposed
approaches by providing both the dataset and the code for implementing the
experiments and the presented approach.
- Abstract(参考訳): 詐欺検出、信用リスクモデリング、医療意思決定など、多くの実用的な応用において、事前定義されたクラスにインスタンスを割り当てる分類モデルは、正確かつ解釈可能である必要がある。
ロジスティック回帰のような線形モデリング手法は、精度と解釈可能性のバランスが許容できるため、しばしば採用される。
しかし、線形法は、高カルジナリティを持つカテゴリー予測器を扱ったり、データの非線形関係を利用するには不十分である。
解法として、ウェイト・オブ・エビデンスのようなデータ前処理法は一般的に予測器の変換に使用される。
しかし、エビデンスウェイト・オブ・エビデンス・アプローチの根底にあるビンニング手順はほとんど研究されておらず、通常はアドホックや専門家主導の手順に依存している。
そこで本研究では,形式化されたデータ駆動型,強力な手法を提案する。
この目的のために,スプライン関数のバイナリ化を通じて連続変数の離散化を探求し,予測変数の非線形効果を捕捉し,少数の離散値のみを取り込む高度に解釈可能な予測器を得る。
さらに,重み付けアプローチを拡張し,収縮推定器を用いて比率を推定する手法を提案する。
これにより、非線形とカテゴリー予測の両方を活用する能力が向上し、分類精度が向上し、結果モデルの解釈可能性を維持し、オーバーフィッティングのリスクを低減できる。
本稿では,提案手法の有効性を示す詐欺検出セットにおける一連の実験結果を示す。
提案した結果の再現と,提案手法の採用を容易にするため,提案手法と実験実装のためのデータセットとコードの両方を提供する。
関連論文リスト
- Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Bayesian Inference for Consistent Predictions in Overparameterized Nonlinear Regression [0.0]
本研究では,ベイズフレームワークにおける過パラメータ化非線形回帰の予測特性について検討した。
リプシッツ連続活性化関数を持つ一般化線形および単一ニューロンモデルに対して後部収縮が成立する。
提案手法は数値シミュレーションと実データアプリケーションを用いて検証した。
論文 参考訳(メタデータ) (2024-04-06T04:22:48Z) - Selective Nonparametric Regression via Testing [54.20569354303575]
本研究では,所定の点における条件分散の値に関する仮説を検証し,留置手順を開発する。
既存の手法とは異なり、提案手法は分散自体の値だけでなく、対応する分散予測器の不確実性についても考慮することができる。
論文 参考訳(メタデータ) (2023-09-28T13:04:11Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Causality-oriented robustness: exploiting general additive interventions [3.871660145364189]
本稿では因果性指向のロバスト性に着目し,不変勾配(DRIG)を用いた分布ロバスト性を提案する。
線形環境では、DRIGがデータ依存の分布シフトのクラスの中で頑健な予測を得られることを証明している。
我々は、予測性能をさらに向上させるために、半教師付きドメイン適応設定にアプローチを拡張した。
論文 参考訳(メタデータ) (2023-07-18T16:22:50Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Loss Estimators Improve Model Generalization [36.520569284970456]
予測モデルと並行して損失推定器を訓練し,対照訓練目標を用いて予測の不確実性を直接推定する。
モデル一般化における損失推定器の影響を,その分布データに対する忠実度と,トレーニング中に見つからない分布サンプルや新しいクラスの検出能力の両方の観点から示す。
論文 参考訳(メタデータ) (2021-03-05T16:35:10Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Nonparametric inverse probability weighted estimators based on the
highly adaptive lasso [0.966840768820136]
非パラメトリック逆確率重み付き推定器は非効率であり、次元性の呪いに苦しむことが知られている。
高度適応型ラッソのアンダースムーシングにより重み付け機構を推定する非パラメトリック逆確率重み付き推定器のクラスを提案する。
我々の開発は、大規模統計モデルと様々な問題設定における効率的な逆確率重み付き推定器の構築に幅広い意味を持つ。
論文 参考訳(メタデータ) (2020-05-22T17:49:46Z) - Efficient Ensemble Model Generation for Uncertainty Estimation with
Bayesian Approximation in Segmentation [74.06904875527556]
アンサンブルセグメンテーションモデルを構築するための汎用的で効率的なセグメンテーションフレームワークを提案する。
提案手法では,層選択法を用いて効率よくアンサンブルモデルを生成することができる。
また,新たな画素単位の不確実性損失を考案し,予測性能を向上する。
論文 参考訳(メタデータ) (2020-05-21T16:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。