論文の概要: Simple Imputation Rules for Prediction with Missing Data: Contrasting
Theoretical Guarantees with Empirical Performance
- arxiv url: http://arxiv.org/abs/2104.03158v3
- Date: Fri, 2 Feb 2024 07:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 21:00:37.263107
- Title: Simple Imputation Rules for Prediction with Missing Data: Contrasting
Theoretical Guarantees with Empirical Performance
- Title(参考訳): 欠測データを用いた予測のための簡易計算規則--理論的保証と経験的性能の対比
- Authors: Dimitris Bertsimas, Arthur Delarue, Jean Pauphilet
- Abstract要約: 実際のデータセットでは、データの欠落が一般的な問題である。
本稿では, 理論的, 実証的証拠を対比して, 即効性パイプラインの性能について検討する。
- 参考スコア(独自算出の注目度): 7.642646077340124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing data is a common issue in real-world datasets. This paper studies the
performance of impute-then-regress pipelines by contrasting theoretical and
empirical evidence. We establish the asymptotic consistency of such pipelines
for a broad family of imputation methods. While common sense suggests that a
`good' imputation method produces datasets that are plausible, we show, on the
contrary, that, as far as prediction is concerned, crude can be good. Among
others, we find that mode-impute is asymptotically sub-optimal, while
mean-impute is asymptotically optimal. We then exhaustively assess the validity
of these theoretical conclusions on a large corpus of synthetic, semi-real, and
real datasets. While the empirical evidence we collect mostly supports our
theoretical findings, it also highlights gaps between theory and practice and
opportunities for future research, regarding the relevance of the MAR
assumption, the complex interdependency between the imputation and regression
tasks, and the need for realistic synthetic data generation models.
- Abstract(参考訳): データの欠落は、現実世界のデータセットでよくある問題である。
本稿では, 理論と経験的証拠を対比して, インデュート・テン・レグレッシブ・パイプラインの性能について検討する。
このようなパイプラインの漸近的一貫性を,様々なインプテーション法に対して確立する。
一般的な意味では,「良い」計算手法は妥当なデータセットを生成することを示唆するが,それとは対照的に,予測に関しても,原油は良いものであることを示す。
特に,mode-impute は漸近的に最適であり, mean-impute は漸近的に最適である。
次に, 合成, 半実, 実データセットの大規模コーパスにおける理論的結論の有効性を徹底的に評価する。
私たちが収集した実証的な証拠は、主に理論的な結果を支持するが、MAR仮定の関連性、計算タスクと回帰タスクの複雑な相互依存性、現実的な合成データ生成モデルの必要性など、理論と実践のギャップと将来の研究機会も強調する。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [60.98692028151328]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,この学習規則が将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
我々は拡散モデルに一般結果を特化し、自己消費ループ内での最適な早期停止の有効性などの微妙な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - A Bias-Variance Decomposition for Ensembles over Multiple Synthetic
Datasets [4.777272940677689]
最近の研究は、教師あり学習のための複数の合成データセットを生成する利点を強調している。
これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。
複数の合成データセットを使用するいくつかの設定に対して、バイアス分散分解を導出することで理論的理解を高めることを目指す。
論文 参考訳(メタデータ) (2024-02-06T13:20:46Z) - Synthetic Data: Can We Trust Statistical Estimators? [41.67560576869115]
推定値が偏りなくても, 偽陽性の発見率(タイプ1の誤り)は許容できないほど高いと論じる。
このようなデータに対する統計的推論ツールを開発することが不可欠である。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Utility Theory of Synthetic Data Generation [14.061357975073319]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Learnability of Competitive Threshold Models [11.005966612053262]
理論的観点から,競合しきい値モデルの学習可能性について検討する。
ニューラルネットワークによって競合しきい値モデルをシームレスにシミュレートする方法を実証する。
論文 参考訳(メタデータ) (2022-05-08T01:11:51Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。