論文の概要: Statistical Hypothesis Testing for Information Value (IV)
- arxiv url: http://arxiv.org/abs/2309.13183v2
- Date: Sat, 30 Sep 2023 00:27:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 16:42:34.759478
- Title: Statistical Hypothesis Testing for Information Value (IV)
- Title(参考訳): 情報価値に関する統計的仮説検定(iv)
- Authors: Helder Rojas, Cirilo Alvarez and Nilton Rojas
- Abstract要約: 本研究では,データセットに想定される特徴の予測能力を評価するために,非パラメトリック仮説テストを提案する。
我々は,テスト統計を効率的に計算する方法を示し,その性能をシミュレーションデータで検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information value (IV) is a quite popular technique for features selection
before the modeling phase. There are practical criteria, based on fixed
thresholds for IV, but at the same time mysterious and lacking theoretical
arguments, to decide if a predictor has sufficient predictive power to be
considered in the modeling phase. However, the mathematical development and
statistical inference methods for this technique are almost nonexistent in the
literature. In this paper we present a theoretical framework for IV, and at the
same time, we propose a non-parametric hypothesis test to evaluate the
predictive power of features contemplated in a data set. Due to its
relationship with divergence measures developed in the Information Theory, we
call our proposal the J - Divergence test. We show how to efficiently compute
our test statistic and we study its performance on simulated data. In various
scenarios, particularly in unbalanced data sets, we show its superiority over
conventional criteria based on fixed thresholds. Furthermore, we apply our test
on fraud identification data and provide an open-source Python library, called
"statistical-iv"(https://pypi.org/project/statistical-iv/), where we implement
our main results.
- Abstract(参考訳): 情報の価値(IV)は、モデリングフェーズの前に特徴を選択するための非常に一般的なテクニックです。
IVの固定しきい値に基づく実践的な基準があるが、同時に謎めいた理論的な議論が欠如しており、予測器がモデリングフェーズで考慮すべき十分な予測力を持つかどうかを決定する。
しかし、この手法の数学的発展と統計的推論法は文献にはほとんど存在しない。
本稿では,iv の理論的枠組みについて述べるとともに,データセットで検討された特徴の予測能力を評価するための非パラメトリック仮説テストを提案する。
情報理論の発散対策との関係から,本提案を「J-発散試験」と呼ぶ。
我々は,テスト統計を効率的に計算する方法を示し,その性能をシミュレーションデータで検証する。
様々なシナリオ、特に不均衡データセットにおいて、固定しきい値に基づく従来の基準よりも優位性を示す。
さらに、不正識別データにテストを適用し、"statistical-iv"(https://pypi.org/project/statistical-iv/)と呼ばれるオープンソースのPythonライブラリを提供します。
関連論文リスト
- Predictive Performance Test based on the Exhaustive Nested Cross-Validation for High-dimensional data [7.62566998854384]
クロスバリデーションは、予測誤差の推定、正規化パラメータのチューニング、最も適切な予測モデルの選択など、いくつかのタスクに使用される。
K-foldクロスバリデーションは一般的なCV法であるが、その制限はリスク推定がデータの分割に大きく依存していることである。
本研究は, 完全ネスト型クロスバリデーションに基づく新たな予測性能試験と有効信頼区間を提案する。
論文 参考訳(メタデータ) (2024-08-06T12:28:16Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - Toward Generalizable Machine Learning Models in Speech, Language, and
Hearing Sciences: Estimating Sample Size and Reducing Overfitting [1.8416014644193064]
本研究ではモンテカルロシミュレーションを用いて,採用したクロスバリデーション法と特徴の離散パワーの相互作用を定量化する。
単一ホールドアウトで必要なサンプルサイズは、ネストしたクロスバリデーションを使用する場合、必要なものよりも50%高い可能性がある。
論文 参考訳(メタデータ) (2023-08-22T05:14:42Z) - Learning Robust Statistics for Simulation-based Inference under Model
Misspecification [23.331522354991527]
本稿では,シミュレーションに基づく推論手法の異なるクラスにまたがって機能するモデル不特定性を扱うための,最初の一般的なアプローチを提案する。
提案手法は,モデルが適切に特定された場合の精度を保ちながら,不特定シナリオにおいて頑健な推論をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-25T09:06:26Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z) - Performance metrics for intervention-triggering prediction models do not
reflect an expected reduction in outcomes from using the model [71.9860741092209]
臨床研究者はしばしばリスク予測モデルの中から選択し評価する。
振り返りデータから算出される標準メトリクスは、特定の仮定の下でのみモデルユーティリティに関係します。
予測が時間を通して繰り返し配信される場合、標準メトリクスとユーティリティの関係はさらに複雑になる。
論文 参考訳(メタデータ) (2020-06-02T16:26:49Z) - Marginal likelihood computation for model selection and hypothesis
testing: an extensive review [66.37504201165159]
この記事では、このトピックの最先端に関する総合的な研究について紹介する。
さまざまなテクニックの制限、メリット、コネクション、差異を強調します。
また、不適切な事前利用の問題や解決法についても述べる。
論文 参考訳(メタデータ) (2020-05-17T18:31:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。