論文の概要: Multiple Imputation with Neural Network Gaussian Process for
High-dimensional Incomplete Data
- arxiv url: http://arxiv.org/abs/2211.13297v1
- Date: Wed, 23 Nov 2022 20:54:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 18:23:32.327393
- Title: Multiple Imputation with Neural Network Gaussian Process for
High-dimensional Incomplete Data
- Title(参考訳): ニューラルネットワークガウス法による高次元不完全データの多重計算
- Authors: Zongyu Dai, Zhiqi Bu, Qi Long
- Abstract要約: 既存のメソッドにはいくつかの制限があるが、Imputationはおそらく欠落データを扱う最も一般的な方法である。
2つのNNGPに基づくMI手法、すなわちMI-NNGPを提案する。
MI-NNGP法は, 合成および実データに対して, 既存の最先端手法を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 9.50726756006467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing data are ubiquitous in real world applications and, if not adequately
handled, may lead to the loss of information and biased findings in downstream
analysis. Particularly, high-dimensional incomplete data with a moderate sample
size, such as analysis of multi-omics data, present daunting challenges.
Imputation is arguably the most popular method for handling missing data,
though existing imputation methods have a number of limitations. Single
imputation methods such as matrix completion methods do not adequately account
for imputation uncertainty and hence would yield improper statistical
inference. In contrast, multiple imputation (MI) methods allow for proper
inference but existing methods do not perform well in high-dimensional
settings. Our work aims to address these significant methodological gaps,
leveraging recent advances in neural network Gaussian process (NNGP) from a
Bayesian viewpoint. We propose two NNGP-based MI methods, namely MI-NNGP, that
can apply multiple imputations for missing values from a joint (posterior
predictive) distribution. The MI-NNGP methods are shown to significantly
outperform existing state-of-the-art methods on synthetic and real datasets, in
terms of imputation error, statistical inference, robustness to missing rates,
and computation costs, under three missing data mechanisms, MCAR, MAR, and
MNAR.
- Abstract(参考訳): ミスデータは現実世界のアプリケーションではユビキタスであり、適切に扱わなければ、下流分析における情報の喪失や偏見のある発見につながる可能性がある。
特に、中程度のサンプルサイズを持つ高次元不完全データ(マルチオミクスデータの解析など)は、困難な課題である。
インプテーションは、欠落データを扱う最も一般的な方法であるが、既存のインプテーションメソッドにはいくつかの制限がある。
行列補完法のような単一計算法は、計算の不確かさを適切に考慮せず、したがって不適切な統計的推測をもたらす。
対照的に、Multiple Imputation(MI)メソッドは適切な推論を可能にするが、既存のメソッドは高次元設定ではうまく動作しない。
本研究の目的は,ベイズの観点からのニューラルネットワークガウス過程(NNGP)の最近の進歩を利用して,これらの重要な方法論的ギャップに対処することである。
本研究では,結合分布(後予測分布)からの欠落値に対して複数のインプットを適用可能な2つのnngpベースのmi法,すなわちmi-nngpを提案する。
MI-NNGP法は, MCAR, MAR, MNARの3つの欠落データ機構の下で, 計算誤差, 統計的推測, 欠落率に対する堅牢性, 計算コストの点で, 合成および実データに対する既存の最先端手法を著しく上回っている。
関連論文リスト
- Evaluation of Missing Data Analytical Techniques in Longitudinal Research: Traditional and Machine Learning Approaches [11.048092826888412]
本研究ではモンテカルロシミュレーションを用いて,成長曲線モデリングフレームワークにおけるデータ不足に対する6つの解析手法の有効性を評価・比較する。
本研究では,サンプルサイズ,データ速度の欠如,データメカニズムの欠如,データ分布がモデル推定の精度と効率に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-19T20:20:30Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - MISNN: Multiple Imputation via Semi-parametric Neural Networks [9.594714330925703]
バイオメディカル・ソーシャル・エコノメトリー研究において、多重計算(Multiple Imputation, MI)は、欠落した価値問題に広く応用されている。
提案するMISNNは,MIの特徴選択を取り入れた,新規で効率的なアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-02T21:45:36Z) - Conditional expectation with regularization for missing data imputation [19.254291863337347]
欠落したデータは、医学、スポーツ、ファイナンスなど、さまざまな領域のデータセットで頻繁に発生する。
正規化による損失値の条件分布に基づくインプット(DIMV)という新しいアルゴリズムを提案する。
DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。
論文 参考訳(メタデータ) (2023-02-02T06:59:15Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - Multiple Imputation via Generative Adversarial Network for
High-dimensional Blockwise Missing Value Problems [6.123324869194195]
本稿では,GAN(Generative Adversarial Network)による多重インプットを提案する。
MI-GANは、高次元データセット上で既存の最先端計算手法と高い性能を示す。
特に、MI-GANは統計的推測と計算速度の点で他の計算方法よりも優れている。
論文 参考訳(メタデータ) (2021-12-21T20:19:37Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Distributionally Robust Semi-Supervised Learning Over Graphs [68.29280230284712]
グラフ構造化データに対する半教師付き学習(SSL)は、多くのネットワークサイエンスアプリケーションに現れる。
グラフ上の学習を効率的に管理するために,近年,グラフニューラルネットワーク(GNN)の変種が開発されている。
実際に成功したにも拘わらず、既存の手法のほとんどは、不確実な結節属性を持つグラフを扱うことができない。
ノイズ測定によって得られたデータに関連する分布の不確実性によっても問題が発生する。
分散ロバストな学習フレームワークを開発し,摂動に対する定量的ロバスト性を示すモデルを訓練する。
論文 参考訳(メタデータ) (2021-10-20T14:23:54Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。