論文の概要: Conditional expectation for missing data imputation
- arxiv url: http://arxiv.org/abs/2302.00911v1
- Date: Thu, 2 Feb 2023 06:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:06:20.404452
- Title: Conditional expectation for missing data imputation
- Title(参考訳): 欠落データ計算に対する条件付き期待
- Authors: Mai Anh Vu, Thu Nguyen, Tu T. Do, Nhan Phan, P{\aa}l Halvorsen,
Michael A. Riegler, Binh T. Nguyen
- Abstract要約: 欠落したデータは、医学、スポーツ、ファイナンスなど、さまざまな分野で取得されたデータセットに共通している。
使用法は、インプット値と真値の間に低根平均二乗誤差(RMSE)を有する必要がある。
これにより、条件分布に基づくImputation of Missing Values (DIMV)アルゴリズムの導入が動機となる。
- 参考スコア(独自算出の注目度): 2.692388940456553
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Missing data is common in datasets retrieved in various areas, such as
medicine, sports, and finance. In many cases, to enable proper and reliable
analyses of such data, the missing values are often imputed, and it is
necessary that the method used has a low root mean square error (RMSE) between
the imputed and the true values. In addition, for some critical applications,
it is also often a requirement that the logic behind the imputation is
explainable, which is especially difficult for complex methods that are for
example, based on deep learning. This motivates us to introduce a conditional
Distribution based Imputation of Missing Values (DIMV) algorithm. This approach
works based on finding the conditional distribution of a feature with missing
entries based on the fully observed features. As will be illustrated in the
paper, DIMV (i) gives a low RMSE for the imputed values compared to
state-of-the-art methods under comparison; (ii) is explainable; (iii) can
provide an approximated confidence region for the missing values in a given
sample; (iv) works for both small and large scale data; (v) in many scenarios,
does not require a huge number of parameters as deep learning approaches and
therefore can be used for mobile devices or web browsers; and (vi) is robust to
the normally distributed assumption that its theoretical grounds rely on. In
addition to DIMV, we also introduce the DPER* algorithm improving the speed of
DPER for estimating the mean and covariance matrix from the data, and we
confirm the speed-up via experiments.
- Abstract(参考訳): データの欠落は、医学、スポーツ、金融など、さまざまな分野で検索されたデータセットでよく見られる。
多くの場合、そのようなデータの適切な信頼性のある解析を可能にするために、欠落した値はしばしばインプットされ、使用法はインプットと真の値の間に低いルート平均二乗誤差(RMSE)を持つ必要がある。
さらに、いくつかの重要なアプリケーションでは、命令の背後にある論理が説明可能であるという要求もしばしばあり、特にディープラーニングに基づく複雑な手法では難しい。
これにより、条件分布に基づくImputation of Missing Values (DIMV)アルゴリズムの導入が動機となる。
このアプローチは、完全に観察された機能に基づいて、欠落したエントリを持つ機能の条件付き分布を見つけることで機能する。
論文に示すように、DIMV
i) 入力された値に対して,比較対象の最先端手法と比較して低いRMSEを与える。
(ii)説明可能。
(iii) あるサンプルの欠落値に対する近似信頼領域を提供することができる。
(iv)小規模データと大規模データの両方に作用する。
(v) 多くのシナリオでは、ディープラーニングアプローチとして大量のパラメータを必要としないため、モバイルデバイスやWebブラウザで使用することができる。
(vi)理論上の根拠が依存する通常分布仮定にロバストである。
dimvに加えて,データから平均および共分散行列を推定するためのdperの速度を改善するdper*アルゴリズムを導入し,実験により高速化を確認した。
関連論文リスト
- A Targeted Accuracy Diagnostic for Variational Approximations [8.969208467611896]
変分推論(VI)はマルコフ・チェイン・モンテカルロ(MCMC)の魅力的な代替品である
既存の方法は、全変分分布の品質を特徴付ける。
配電近似精度(TADDAA)のためのTArgeted診断法を提案する。
論文 参考訳(メタデータ) (2023-02-24T02:50:18Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Multiple Imputation via Generative Adversarial Network for
High-dimensional Blockwise Missing Value Problems [6.123324869194195]
本稿では,GAN(Generative Adversarial Network)による多重インプットを提案する。
MI-GANは、高次元データセット上で既存の最先端計算手法と高い性能を示す。
特に、MI-GANは統計的推測と計算速度の点で他の計算方法よりも優れている。
論文 参考訳(メタデータ) (2021-12-21T20:19:37Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Meta-Learning for Relative Density-Ratio Estimation [59.75321498170363]
相対密度比推定(DRE)の既存の方法は、両方の密度から多くのインスタンスを必要とする。
本稿では,関係データセットの知識を用いて,相対密度比を数例から推定する,相対DREのメタラーニング手法を提案する。
提案手法の有効性を,相対的DRE,データセット比較,外乱検出の3つの問題を用いて実証的に実証した。
論文 参考訳(メタデータ) (2021-07-02T02:13:45Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - ELMV: an Ensemble-Learning Approach for Analyzing Electrical Health
Records with Significant Missing Values [4.9810955364960385]
本稿では,ELMV(Ensemble-Learning for Missing Value)フレームワークを提案する。
ELMVは、重要な特徴識別のための現実世界の医療データと、結果予測の欠落率の異なるシミュレーションデータのバッチで評価されている。
論文 参考訳(メタデータ) (2020-06-25T06:29:55Z) - MissDeepCausal: Causal Inference from Incomplete Data Using Deep Latent
Variable Models [14.173184309520453]
因果推論の最先端の手法は、欠落した値を考慮していない。
欠落したデータは、適応された未確立仮説を必要とする。
欠落した値に適応した変分オートエンコーダを通じて分布を学習する潜在的共同設立者について考察する。
論文 参考訳(メタデータ) (2020-02-25T12:58:07Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。