論文の概要: Are deep learning models superior for missing data imputation in large
surveys? Evidence from an empirical comparison
- arxiv url: http://arxiv.org/abs/2103.09316v1
- Date: Sun, 14 Mar 2021 16:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 13:03:29.137861
- Title: Are deep learning models superior for missing data imputation in large
surveys? Evidence from an empirical comparison
- Title(参考訳): 大規模な調査では、深層学習モデルは欠落データ計算に優れているか?
経験的比較からの証拠
- Authors: Zhenhua Wang, Olanrewaju Akande, Jason Poulos and Fan Li
- Abstract要約: マルチプルインプテーション(Multiple imputation、MI)は、サンプル調査における非応答性に起因する欠落データを扱うための最先端のアプローチです。
深層学習モデルに基づく最近のMI手法は、小さな研究の成果を奨励して開発されています。
本稿では,実測データに基づくシミュレーションのフレームワークと,MI手法を比較するための性能指標について述べる。
- 参考スコア(独自算出の注目度): 5.994312110645453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple imputation (MI) is the state-of-the-art approach for dealing with
missing data arising from non-response in sample surveys. Multiple imputation
by chained equations (MICE) is the most widely used MI method, but it lacks
theoretical foundation and is computationally intensive. Recently, MI methods
based on deep learning models have been developed with encouraging results in
small studies. However, there has been limited research on systematically
evaluating their performance in realistic settings comparing to MICE,
particularly in large-scale surveys. This paper provides a general framework
for using simulations based on real survey data and several performance metrics
to compare MI methods. We conduct extensive simulation studies based on the
American Community Survey data to compare repeated sampling properties of four
machine learning based MI methods: MICE with classification trees, MICE with
random forests, generative adversarial imputation network, and multiple
imputation using denoising autoencoders. We find the deep learning based MI
methods dominate MICE in terms of computational time; however, MICE with
classification trees consistently outperforms the deep learning MI methods in
terms of bias, mean squared error, and coverage under a range of realistic
settings.
- Abstract(参考訳): 多重計算(Multiple imputation、MI)は、サンプル調査における非応答性に起因する欠落データを扱うための最先端の手法である。
連鎖方程式(MICE)による多重計算は最も広く使われているMI法であるが、理論的な基礎が欠如しており、計算集約的である。
近年, 深層学習モデルに基づくMI手法が開発され, 小規模な研究が進められている。
しかし,MICEと比較した場合,特に大規模調査では,現実的な環境下での性能を体系的に評価する研究が限られている。
本稿では,実測データに基づくシミュレーションの一般的なフレームワークと,MI手法を比較するための性能指標について述べる。
本研究では,アメリカコミュニティ調査データに基づく広範囲なシミュレーションを行い,分類木を用いたマウス,ランダム林を用いたマウス,生成的逆インプテーションネットワーク,デノージングオートエンコーダを用いた複数インプテーションの4つの機械学習手法の繰り返しサンプリング特性を比較した。
深層学習に基づくMI手法は,計算時間の観点からはMICEが支配的であるが,分類木を用いたMICEは,偏差,平均二乗誤差,範囲の現実的な設定において,常に深層学習のMI手法よりも優れる。
関連論文リスト
- Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies [0.5892638927736115]
欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。
予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。
特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
論文 参考訳(メタデータ) (2024-01-17T21:28:00Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Learning-Based Difficulty Calibration for Enhanced Membership Inference
Attacks [3.90035843485139]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがモデルのトレーニングデータセットの一部であるかどうかを敵が判断することを可能にする。
低偽陽性率(FPR)におけるTPRの大幅な改善を目的としたMIAの新しいアプローチを提案する。
実験の結果,LCD-MIAは,他の困難キャリブレーションに基づくMIAと比較して,低FPRでのTPRを最大4倍改善できることがわかった。
論文 参考訳(メタデータ) (2024-01-10T04:58:17Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Multiple Imputation with Neural Network Gaussian Process for
High-dimensional Incomplete Data [9.50726756006467]
既存のメソッドにはいくつかの制限があるが、Imputationはおそらく欠落データを扱う最も一般的な方法である。
2つのNNGPに基づくMI手法、すなわちMI-NNGPを提案する。
MI-NNGP法は, 合成および実データに対して, 既存の最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-11-23T20:54:26Z) - A robust estimator of mutual information for deep learning
interpretability [2.574652392763709]
本稿では,離散的かつ連続的な設定にも適用可能なアルゴリズムGMM-MIを提案する。
我々は,GMM-MIを具体的真理MIが知られている玩具データに基づいて広範囲に検証する。
次に、表現学習の文脈におけるMI推定器の使用例を示す。
論文 参考訳(メタデータ) (2022-10-31T18:00:02Z) - Multiple Imputation via Generative Adversarial Network for
High-dimensional Blockwise Missing Value Problems [6.123324869194195]
本稿では,GAN(Generative Adversarial Network)による多重インプットを提案する。
MI-GANは、高次元データセット上で既存の最先端計算手法と高い性能を示す。
特に、MI-GANは統計的推測と計算速度の点で他の計算方法よりも優れている。
論文 参考訳(メタデータ) (2021-12-21T20:19:37Z) - Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and
Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。
既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。
本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-09T08:47:58Z) - CLUB: A Contrastive Log-ratio Upper Bound of Mutual Information [105.73798100327667]
本稿では,相互情報の対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物
CLUBの特性とその変分近似に関する理論的解析を行う。
この上限に基づいてMI最小化学習手法を導入し、さらに負のサンプリング戦略で加速する。
論文 参考訳(メタデータ) (2020-06-22T05:36:16Z) - Mutual Information Gradient Estimation for Representation Learning [56.08429809658762]
相互情報(MI)は表現学習において重要な役割を担っている。
近年の進歩は、有用な表現を見つけるためのトラクタブルでスケーラブルなMI推定器を確立している。
暗黙分布のスコア推定に基づく表現学習のための相互情報勾配推定器(MIGE)を提案する。
論文 参考訳(メタデータ) (2020-05-03T16:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。