論文の概要: Conditional expectation with regularization for missing data imputation
- arxiv url: http://arxiv.org/abs/2302.00911v2
- Date: Sat, 27 May 2023 09:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 01:49:13.118457
- Title: Conditional expectation with regularization for missing data imputation
- Title(参考訳): 欠落データインプテーションの正規化による条件付期待
- Authors: Mai Anh Vu, Thu Nguyen, Tu T. Do, Nhan Phan, P{\aa}l Halvorsen,
Michael A. Riegler, Binh T. Nguyen
- Abstract要約: 欠落したデータは、医学、スポーツ、ファイナンスなど、さまざまな領域のデータセットで頻繁に発生する。
正規化による損失値の条件分布に基づくインプット(DIMV)という新しいアルゴリズムを提案する。
DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。
- 参考スコア(独自算出の注目度): 2.692388940456553
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Missing data frequently occurs in datasets across various domains, such as
medicine, sports, and finance. In many cases, to enable proper and reliable
analyses of such data, the missing values are often imputed, and it is
necessary that the method used has a low root mean square error (RMSE) between
the imputed and the true values. In addition, for some critical applications,
it is also often a requirement that the imputation method is scalable and the
logic behind the imputation is explainable, which is especially difficult for
complex methods that are, for example, based on deep learning. Based on these
considerations, we propose a new algorithm named "conditional
Distribution-based Imputation of Missing Values with Regularization" (DIMV).
DIMV operates by determining the conditional distribution of a feature that has
missing entries, using the information from the fully observed features as a
basis. As will be illustrated via experiments in the paper, DIMV (i) gives a
low RMSE for the imputed values compared to state-of-the-art methods; (ii) fast
and scalable; (iii) is explainable as coefficients in a regression model,
allowing reliable and trustable analysis, makes it a suitable choice for
critical domains where understanding is important such as in medical fields,
finance, etc; (iv) can provide an approximated confidence region for the
missing values in a given sample; (v) suitable for both small and large scale
data; (vi) in many scenarios, does not require a huge number of parameters as
deep learning approaches; (vii) handle multicollinearity in imputation
effectively; and (viii) is robust to the normally distributed assumption that
its theoretical grounds rely on.
- Abstract(参考訳): 欠落したデータは、医学、スポーツ、金融など、さまざまな分野のデータセットで頻繁に発生する。
多くの場合、そのようなデータの適切な信頼性のある解析を可能にするために、欠落した値はしばしばインプットされ、使用法はインプットと真の値の間に低いルート平均二乗誤差(RMSE)を持つ必要がある。
さらに、いくつかの重要なアプリケーションでは、命令法がスケーラブルであり、命令法の背後にあるロジックが説明可能であるという要求もしばしばある。
これらの考察に基づき,「正規化を伴う欠落値の条件分布に基づくインプテーション」(dimv)という新しいアルゴリズムを提案する。
DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。
論文での実験で示されるように、dimvは
i) 最先端の方法と比較して,インプット値のRMSEが低いこと。
(ii)高速でスケーラブルなもの
三) 回帰モデルにおける係数として説明でき、信頼性及び信頼性のある分析を可能にし、医療分野、財務分野等において理解が重要である重要な領域に好適な選択となる。
(iv) あるサンプルの欠落値に対する近似信頼領域を提供することができる。
(v) 小規模かつ大規模なデータに適したもの
(vi)多くのシナリオでは、ディープラーニングアプローチとして大量のパラメータを必要としない。
(vii)命令の多行性を効果的に扱うこと、及び
(viii) は、理論的な根拠が依存する通常分布した仮定に頑健である。
関連論文リスト
- A Targeted Accuracy Diagnostic for Variational Approximations [8.969208467611896]
変分推論(VI)はマルコフ・チェイン・モンテカルロ(MCMC)の魅力的な代替品である
既存の方法は、全変分分布の品質を特徴付ける。
配電近似精度(TADDAA)のためのTArgeted診断法を提案する。
論文 参考訳(メタデータ) (2023-02-24T02:50:18Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Multiple Imputation via Generative Adversarial Network for
High-dimensional Blockwise Missing Value Problems [6.123324869194195]
本稿では,GAN(Generative Adversarial Network)による多重インプットを提案する。
MI-GANは、高次元データセット上で既存の最先端計算手法と高い性能を示す。
特に、MI-GANは統計的推測と計算速度の点で他の計算方法よりも優れている。
論文 参考訳(メタデータ) (2021-12-21T20:19:37Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Meta-Learning for Relative Density-Ratio Estimation [59.75321498170363]
相対密度比推定(DRE)の既存の方法は、両方の密度から多くのインスタンスを必要とする。
本稿では,関係データセットの知識を用いて,相対密度比を数例から推定する,相対DREのメタラーニング手法を提案する。
提案手法の有効性を,相対的DRE,データセット比較,外乱検出の3つの問題を用いて実証的に実証した。
論文 参考訳(メタデータ) (2021-07-02T02:13:45Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - ELMV: an Ensemble-Learning Approach for Analyzing Electrical Health
Records with Significant Missing Values [4.9810955364960385]
本稿では,ELMV(Ensemble-Learning for Missing Value)フレームワークを提案する。
ELMVは、重要な特徴識別のための現実世界の医療データと、結果予測の欠落率の異なるシミュレーションデータのバッチで評価されている。
論文 参考訳(メタデータ) (2020-06-25T06:29:55Z) - MissDeepCausal: Causal Inference from Incomplete Data Using Deep Latent
Variable Models [14.173184309520453]
因果推論の最先端の手法は、欠落した値を考慮していない。
欠落したデータは、適応された未確立仮説を必要とする。
欠落した値に適応した変分オートエンコーダを通じて分布を学習する潜在的共同設立者について考察する。
論文 参考訳(メタデータ) (2020-02-25T12:58:07Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。