論文の概要: Random features models: a way to study the success of naive imputation
- arxiv url: http://arxiv.org/abs/2402.03839v1
- Date: Tue, 6 Feb 2024 09:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 15:28:51.597016
- Title: Random features models: a way to study the success of naive imputation
- Title(参考訳): ランダムの特徴モデル--ナイーブ・インパテーションの成功を研究する方法
- Authors: Alexis Ayme (LPSM (UMR\_8001)), Claire Boyer (LPSM (UMR\_8001), IUF),
Aymeric Dieuleveut (CMAP), Erwan Scornet (LPSM (UMR\_8001))
- Abstract要約: これは、欠落したデータを扱うための最初の使い易いテクニックである。
最近の研究は、このバイアスが高次元線形予測器の文脈で低いことを示唆している。
本稿は, 偏見が無視可能であり, 意外なナイーブな計算も極めて低次元で関連している,という直感を裏付けるものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constant (naive) imputation is still widely used in practice as this is a
first easy-to-use technique to deal with missing data. Yet, this simple method
could be expected to induce a large bias for prediction purposes, as the
imputed input may strongly differ from the true underlying data. However,
recent works suggest that this bias is low in the context of high-dimensional
linear predictors when data is supposed to be missing completely at random
(MCAR). This paper completes the picture for linear predictors by confirming
the intuition that the bias is negligible and that surprisingly naive
imputation also remains relevant in very low dimension.To this aim, we consider
a unique underlying random features model, which offers a rigorous framework
for studying predictive performances, whilst the dimension of the observed
features varies.Building on these theoretical results, we establish
finite-sample bounds on stochastic gradient (SGD) predictors applied to
zero-imputed data, a strategy particularly well suited for large-scale
learning.If the MCAR assumption appears to be strong, we show that similar
favorable behaviors occur for more complex missing data scenarios.
- Abstract(参考訳): コンスタントな(ナイーブな)インプテーションは、データ欠落に対処するのに初めて簡単に使えるテクニックであるため、まだ広く使われている。
しかし、この単純な手法は、インプット入力が真の基礎データと強く異なる可能性があるため、予測目的に対して大きなバイアスを引き起こすことが期待できる。
しかし、最近の研究では、データが完全にランダム(MCAR)で欠落していると思われる場合、このバイアスは高次元線形予測器の文脈では低いことが示唆されている。
This paper completes the picture for linear predictors by confirming the intuition that the bias is negligible and that surprisingly naive imputation also remains relevant in very low dimension.To this aim, we consider a unique underlying random features model, which offers a rigorous framework for studying predictive performances, whilst the dimension of the observed features varies.Building on these theoretical results, we establish finite-sample bounds on stochastic gradient (SGD) predictors applied to zero-imputed data, a strategy particularly well suited for large-scale learning.If the MCAR assumption appears to be strong, we show that similar favorable behaviors occur for more complex missing data scenarios.
関連論文リスト
- Correcting Model Bias with Sparse Implicit Processes [0.9187159782788579]
SIP(Sparse Implicit Processes)は,データ生成機構がモデルによって入力されるものと強く異なる場合,モデルバイアスを補正できることを示す。
合成データセットを用いて、SIPは、初期推定モデルの正確な予測よりもデータをよりよく反映する予測分布を提供することができることを示す。
論文 参考訳(メタデータ) (2022-07-21T18:00:01Z) - Non-Volatile Memory Accelerated Posterior Estimation [3.4256231429537936]
現在の機械学習モデルは、予測を行う際に単一の学習可能なパラメータの組み合わせのみを使用する。
高容量永続ストレージを利用することで、後部分布が大きすぎて近似できないモデルが実現可能であることを示す。
論文 参考訳(メタデータ) (2022-02-21T20:25:57Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Latent Gaussian Model Boosting [0.0]
ツリーブースティングは多くのデータセットに対して優れた予測精度を示す。
シミュレーションおよび実世界のデータ実験において,既存の手法と比較して予測精度が向上した。
論文 参考訳(メタデータ) (2021-05-19T07:36:30Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Curse of Small Sample Size in Forecasting of the Active Cases in
COVID-19 Outbreak [0.0]
新型コロナウイルス(COVID-19)のパンデミックでは、感染者数や今後の流行を予想する試みが多数行われている。
しかし、信頼性の高い方法では、新型コロナウイルス(COVID-19)の根本的特徴の中期的・長期的進化を許容できる精度で予測することができない。
本稿では,この予測問題における機械学習モデルの故障について説明する。
論文 参考訳(メタデータ) (2020-11-06T23:13:34Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。