論文の概要: Logistic Regression for Massive Data with Rare Events
- arxiv url: http://arxiv.org/abs/2006.00683v1
- Date: Mon, 1 Jun 2020 03:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:42:11.685781
- Title: Logistic Regression for Massive Data with Rare Events
- Title(参考訳): 希少事象を伴う大規模データのロジスティック回帰
- Authors: HaiYing Wang
- Abstract要約: 本稿では,レアイベントデータ(不均衡データ)のバイナリロジスティック回帰について検討する。
希少なイベントデータ中の利用可能な情報は、完全なデータサンプルサイズではなく、イベント数の大きさであることを示す。
- 参考スコア(独自算出の注目度): 4.09920839425892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies binary logistic regression for rare events data, or
imbalanced data, where the number of events (observations in one class, often
called cases) is significantly smaller than the number of nonevents
(observations in the other class, often called controls). We first derive the
asymptotic distribution of the maximum likelihood estimator (MLE) of the
unknown parameter, which shows that the asymptotic variance convergences to
zero in a rate of the inverse of the number of the events instead of the
inverse of the full data sample size. This indicates that the available
information in rare events data is at the scale of the number of events instead
of the full data sample size. Furthermore, we prove that under-sampling a small
proportion of the nonevents, the resulting under-sampled estimator may have
identical asymptotic distribution to the full data MLE. This demonstrates the
advantage of under-sampling nonevents for rare events data, because this
procedure may significantly reduce the computation and/or data collection
costs. Another common practice in analyzing rare events data is to over-sample
(replicate) the events, which has a higher computational cost. We show that
this procedure may even result in efficiency loss in terms of parameter
estimation.
- Abstract(参考訳): 本稿では,レアイベントデータに対する二項ロジスティック回帰(不均衡データ)について検討し,イベント数(一クラスの観測値,しばしばケースと呼ばれる)はノベント数(他のクラスの観測値,しばしばコントロールと呼ばれる)よりもかなり小さい。
まず,未知パラメータの最大確率推定器(mle)の漸近分布を導出し,全データサンプルサイズの逆数ではなく事象数の逆数で漸近分散収束がゼロとなることを示す。
これは、まれなイベントデータで利用可能な情報が、完全なデータサンプルサイズではなく、イベントの数であることを示している。
さらに,非事象のごく一部をアンダーサンプリングすることで得られたアンダーサンプリング推定器が全データmleと同一の漸近分布を持つことを証明した。
この手法は計算コストやデータ収集コストを大幅に削減する可能性があるため、レアイベントデータに対するアンダーサンプリングノベツの利点を示す。
希少事象データを解析するもう一つの一般的な実践は、計算コストの高いイベントをオーバーサンプリング(複製)することである。
この手法はパラメータ推定の面で効率が低下する可能性を示す。
関連論文リスト
- Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - Evaluating the Role of Data Enrichment Approaches Towards Rare Event Analysis in Manufacturing [1.3980986259786223]
希少な出来事は、一般的な通常の出来事よりもはるかに低い頻度で起こる出来事である。
製造業では、計画外のダウンタイム、設備寿命の短縮、高エネルギー消費につながるため、このような事象を予測することが特に重要である。
本稿では,データエンリッチメント技術と教師付き機械学習技術を組み合わせて,まれな事象の検出と予測を行う役割について検討する。
論文 参考訳(メタデータ) (2024-07-01T00:05:56Z) - Towards Dynamic Causal Discovery with Rare Events: A Nonparametric
Conditional Independence Test [4.67306371596399]
我々は,稀だが連続的な事象が発生した時変システムから収集したデータに対して,新しい統計的独立性テストを導入する。
提案手法の整合性に対する非漸近的サンプルバウンダリを提供し,その性能をシミュレーションおよび実世界のデータセットで検証する。
論文 参考訳(メタデータ) (2022-11-29T21:15:51Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Nonuniform Negative Sampling and Log Odds Correction with Rare Events
Data [15.696653979226113]
不均衡なデータに対する非一様負サンプリングによるパラメータ推定の問題について検討する。
一般逆確率重み付き(IPW)推定器を導出し,その分散を最小化する最適なサンプリング確率を得る。
理論的および実証的な結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-10-25T15:37:22Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z) - Unbiased and Efficient Log-Likelihood Estimation with Inverse Binomial
Sampling [9.66840768820136]
逆二項サンプリング(IBS)は、データセット全体のログ類似度を、バイアスなく効率的に推定することができる。
IBSは、推定パラメータと最大対数類似値において、代替サンプリング法よりも低い誤差を生成する。
論文 参考訳(メタデータ) (2020-01-12T19:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。