論文の概要: Are deep learning models superior for missing data imputation in large
surveys? Evidence from an empirical comparison
- arxiv url: http://arxiv.org/abs/2103.09316v1
- Date: Sun, 14 Mar 2021 16:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 13:03:29.137861
- Title: Are deep learning models superior for missing data imputation in large
surveys? Evidence from an empirical comparison
- Title(参考訳): 大規模な調査では、深層学習モデルは欠落データ計算に優れているか?
経験的比較からの証拠
- Authors: Zhenhua Wang, Olanrewaju Akande, Jason Poulos and Fan Li
- Abstract要約: マルチプルインプテーション(Multiple imputation、MI)は、サンプル調査における非応答性に起因する欠落データを扱うための最先端のアプローチです。
深層学習モデルに基づく最近のMI手法は、小さな研究の成果を奨励して開発されています。
本稿では,実測データに基づくシミュレーションのフレームワークと,MI手法を比較するための性能指標について述べる。
- 参考スコア(独自算出の注目度): 5.994312110645453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multiple imputation (MI) is the state-of-the-art approach for dealing with
missing data arising from non-response in sample surveys. Multiple imputation
by chained equations (MICE) is the most widely used MI method, but it lacks
theoretical foundation and is computationally intensive. Recently, MI methods
based on deep learning models have been developed with encouraging results in
small studies. However, there has been limited research on systematically
evaluating their performance in realistic settings comparing to MICE,
particularly in large-scale surveys. This paper provides a general framework
for using simulations based on real survey data and several performance metrics
to compare MI methods. We conduct extensive simulation studies based on the
American Community Survey data to compare repeated sampling properties of four
machine learning based MI methods: MICE with classification trees, MICE with
random forests, generative adversarial imputation network, and multiple
imputation using denoising autoencoders. We find the deep learning based MI
methods dominate MICE in terms of computational time; however, MICE with
classification trees consistently outperforms the deep learning MI methods in
terms of bias, mean squared error, and coverage under a range of realistic
settings.
- Abstract(参考訳): 多重計算(Multiple imputation、MI)は、サンプル調査における非応答性に起因する欠落データを扱うための最先端の手法である。
連鎖方程式(MICE)による多重計算は最も広く使われているMI法であるが、理論的な基礎が欠如しており、計算集約的である。
近年, 深層学習モデルに基づくMI手法が開発され, 小規模な研究が進められている。
しかし,MICEと比較した場合,特に大規模調査では,現実的な環境下での性能を体系的に評価する研究が限られている。
本稿では,実測データに基づくシミュレーションの一般的なフレームワークと,MI手法を比較するための性能指標について述べる。
本研究では,アメリカコミュニティ調査データに基づく広範囲なシミュレーションを行い,分類木を用いたマウス,ランダム林を用いたマウス,生成的逆インプテーションネットワーク,デノージングオートエンコーダを用いた複数インプテーションの4つの機械学習手法の繰り返しサンプリング特性を比較した。
深層学習に基づくMI手法は,計算時間の観点からはMICEが支配的であるが,分類木を用いたMICEは,偏差,平均二乗誤差,範囲の現実的な設定において,常に深層学習のMI手法よりも優れる。
関連論文リスト
- Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。
我々は近年,分類学を構築し,最も顕著な論文をレビューしている。
我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文 参考訳(メタデータ) (2024-08-13T07:27:02Z) - Evaluation of Missing Data Analytical Techniques in Longitudinal Research: Traditional and Machine Learning Approaches [11.048092826888412]
本研究ではモンテカルロシミュレーションを用いて,成長曲線モデリングフレームワークにおけるデータ不足に対する6つの解析手法の有効性を評価・比較する。
本研究では,サンプルサイズ,データ速度の欠如,データメカニズムの欠如,データ分布がモデル推定の精度と効率に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-19T20:20:30Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Evaluating tree-based imputation methods as an alternative to MICE PMM
for drawing inference in empirical studies [0.5892638927736115]
欠落したデータを扱うことは、しばしば計算手順で対処される統計解析において重要な問題である。
予測平均マッチング(PMM)を用いた連鎖方程式による多重計算の一般的な方法は、社会科学文献において標準とされている。
特に、木に基づく計算手法は、非常に競争力のあるアプローチとして現れてきた。
論文 参考訳(メタデータ) (2024-01-17T21:28:00Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Learning-Based Difficulty Calibration for Enhanced Membership Inference Attacks [3.470379197911889]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがモデルのトレーニングデータセットの一部であるかどうかを敵が判断することを可能にする。
低偽陽性率(FPR)におけるTPRの大幅な改善を目的としたMIAの新しいアプローチを提案する。
実験の結果,LCD-MIAは,他の困難キャリブレーションに基づくMIAと比較して,低FPRでのTPRを最大4倍改善できることがわかった。
論文 参考訳(メタデータ) (2024-01-10T04:58:17Z) - Multiple Imputation with Neural Network Gaussian Process for
High-dimensional Incomplete Data [9.50726756006467]
既存のメソッドにはいくつかの制限があるが、Imputationはおそらく欠落データを扱う最も一般的な方法である。
2つのNNGPに基づくMI手法、すなわちMI-NNGPを提案する。
MI-NNGP法は, 合成および実データに対して, 既存の最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-11-23T20:54:26Z) - Multiple Imputation via Generative Adversarial Network for
High-dimensional Blockwise Missing Value Problems [6.123324869194195]
本稿では,GAN(Generative Adversarial Network)による多重インプットを提案する。
MI-GANは、高次元データセット上で既存の最先端計算手法と高い性能を示す。
特に、MI-GANは統計的推測と計算速度の点で他の計算方法よりも優れている。
論文 参考訳(メタデータ) (2021-12-21T20:19:37Z) - CLUB: A Contrastive Log-ratio Upper Bound of Mutual Information [105.73798100327667]
本稿では,相互情報の対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物対物
CLUBの特性とその変分近似に関する理論的解析を行う。
この上限に基づいてMI最小化学習手法を導入し、さらに負のサンプリング戦略で加速する。
論文 参考訳(メタデータ) (2020-06-22T05:36:16Z) - Mutual Information Gradient Estimation for Representation Learning [56.08429809658762]
相互情報(MI)は表現学習において重要な役割を担っている。
近年の進歩は、有用な表現を見つけるためのトラクタブルでスケーラブルなMI推定器を確立している。
暗黙分布のスコア推定に基づく表現学習のための相互情報勾配推定器(MIGE)を提案する。
論文 参考訳(メタデータ) (2020-05-03T16:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。