論文の概要: Predicting missing values: A good idea?
- arxiv url: http://arxiv.org/abs/2605.03733v1
- Date: Tue, 05 May 2026 13:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.945559
- Title: Predicting missing values: A good idea?
- Title(参考訳): 不足する価値を予測する: いいアイデアか?
- Authors: Stef van Buuren,
- Abstract要約: Mean Squared Error (MSE) の最小化は機械学習の重要な目標であり、欠落した値を計算するために一般的に使用される。
これらのバイアスは、分散、有病率、相関、傾斜、説明された分散といった重要なパラメータに影響を及ぼす。
本稿では,これらのバイアスを効果的に除去できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minimizing the Mean Squared Error (MSE) is a key objective in machine learning and is commonly used for imputing missing values. While this approach provides accurate point estimates, it introduces systematic biases in downstream analyses. These biases affect key parameters such as variance, prevalence, correlation, slope, and explained variance. The root cause is that imputed values optimized for MSE are averages, which reduce the natural variability in the data. This paper demonstrates that adding noise to imputed values can effectively eliminate these biases. The required noise level is proportional to the MSE. Using a toy example in a multivariate normal setting, we compare two methods: predictive imputation, which minimizes MSE, and stochastic imputation, which incorporates random noise. Simulation results show that predictive methods systematically introduce bias, while stochastic methods preserve the data's natural variability and produce unbiased estimates. We also evaluate three popular imputation tools -- missForest, softImpute, and mice -- and observe consistent biases in predictive methods. These findings highlight that MSE is an inadequate measure of imputation quality, as it prioritizes accuracy over variability. Incorporating noise into imputation methods is essential to prevent biases and ensure valid downstream analyses, underscoring the importance of stochastic approaches for handling incomplete data.
- Abstract(参考訳): Mean Squared Error (MSE) の最小化は機械学習の重要な目標であり、欠落した値を計算するために一般的に使用される。
このアプローチは正確な点推定を提供するが、下流分析に体系的なバイアスを導入する。
これらのバイアスは、分散、有病率、相関、傾斜、説明された分散といった重要なパラメータに影響を及ぼす。
根本原因は、MSEに最適化されたインプット値が平均であり、データの自然変動を減少させることである。
本稿では,これらのバイアスを効果的に除去できることを示す。
必要なノイズレベルはMSEに比例する。
多変量正規設定におけるおもちゃの例を用いて、MSEを最小化する予測的計算法とランダムノイズを含む確率的計算法を比較した。
シミュレーションの結果、予測手法はバイアスを体系的に導入する一方で、確率的手法はデータの自然変動を保存し、バイアスのない見積もりを生成することがわかった。
私たちはまた、MissForest、SoftImpute、マウスの3つの一般的な計算ツールを評価し、予測手法における一貫したバイアスを観察します。
これらの結果から, MSEは可変性よりも精度が優先されるため, 計算品質の指標として不十分であることが示唆された。
不完全なデータを扱うための確率的アプローチの重要性を浮き彫りにして、バイアスを防止し、有効な下流分析を確保するためには、ノイズを計算方法に組み込むことが不可欠である。
関連論文リスト
- On the Effect of Regularization on Nonparametric Mean-Variance Regression [22.758981850171548]
実験結果と一致して観測された相転移を捉える統計場理論フレームワークを開発した。
UCIデータセットと大規模ClimSimデータセットの実験は、堅牢な校正性能を示し、予測の不確実性を効果的に定量化している。
論文 参考訳(メタデータ) (2025-11-27T01:09:28Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z) - Accounting for Input Noise in Gaussian Process Parameter Retrieval [9.563129471152058]
予測平均関数の導関数を用いて誤差項を伝搬するGPモデル定式化を用いて、入力雑音推定をいかに説明できるかを示す。
得られた予測分散項を解析し、赤外線音響データから温度予測問題におけるモデル誤差をより正確に表現する方法を示す。
論文 参考訳(メタデータ) (2020-05-20T08:23:48Z) - Multi-class Gaussian Process Classification with Noisy Inputs [2.362412515574206]
いくつかの状況では、騒音の量は事前に知ることができる。
提案手法を,合成データと実データを含むいくつかの実験により評価した。
論文 参考訳(メタデータ) (2020-01-28T18:55:13Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。