論文の概要: Simple Imputation Rules for Prediction with Missing Data: Contrasting
Theoretical Guarantees with Empirical Performance
- arxiv url: http://arxiv.org/abs/2104.03158v3
- Date: Fri, 2 Feb 2024 07:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 21:00:37.263107
- Title: Simple Imputation Rules for Prediction with Missing Data: Contrasting
Theoretical Guarantees with Empirical Performance
- Title(参考訳): 欠測データを用いた予測のための簡易計算規則--理論的保証と経験的性能の対比
- Authors: Dimitris Bertsimas, Arthur Delarue, Jean Pauphilet
- Abstract要約: 実際のデータセットでは、データの欠落が一般的な問題である。
本稿では, 理論的, 実証的証拠を対比して, 即効性パイプラインの性能について検討する。
- 参考スコア(独自算出の注目度): 7.642646077340124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing data is a common issue in real-world datasets. This paper studies the
performance of impute-then-regress pipelines by contrasting theoretical and
empirical evidence. We establish the asymptotic consistency of such pipelines
for a broad family of imputation methods. While common sense suggests that a
`good' imputation method produces datasets that are plausible, we show, on the
contrary, that, as far as prediction is concerned, crude can be good. Among
others, we find that mode-impute is asymptotically sub-optimal, while
mean-impute is asymptotically optimal. We then exhaustively assess the validity
of these theoretical conclusions on a large corpus of synthetic, semi-real, and
real datasets. While the empirical evidence we collect mostly supports our
theoretical findings, it also highlights gaps between theory and practice and
opportunities for future research, regarding the relevance of the MAR
assumption, the complex interdependency between the imputation and regression
tasks, and the need for realistic synthetic data generation models.
- Abstract(参考訳): データの欠落は、現実世界のデータセットでよくある問題である。
本稿では, 理論と経験的証拠を対比して, インデュート・テン・レグレッシブ・パイプラインの性能について検討する。
このようなパイプラインの漸近的一貫性を,様々なインプテーション法に対して確立する。
一般的な意味では,「良い」計算手法は妥当なデータセットを生成することを示唆するが,それとは対照的に,予測に関しても,原油は良いものであることを示す。
特に,mode-impute は漸近的に最適であり, mean-impute は漸近的に最適である。
次に, 合成, 半実, 実データセットの大規模コーパスにおける理論的結論の有効性を徹底的に評価する。
私たちが収集した実証的な証拠は、主に理論的な結果を支持するが、MAR仮定の関連性、計算タスクと回帰タスクの複雑な相互依存性、現実的な合成データ生成モデルの必要性など、理論と実践のギャップと将来の研究機会も強調する。
関連論文リスト
- Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Towards Characterizing Domain Counterfactuals For Invertible Latent Causal Models [15.817239008727789]
本研究では,異なるドメインで生成された場合,サンプルがどのようなものであったのかを仮定した,ドメイン反事実と呼ばれる特定のタイプの因果クエリを解析する。
本研究では, 潜在構造因果モデル (SCM) の回復は, ドメイン・デファクト・デファクトを推定するために不要であることを示す。
また、モデル生成過程を単純化し、生成モデル推定を行うための理論的基盤となる実用的なアルゴリズムも開発する。
論文 参考訳(メタデータ) (2023-06-20T04:19:06Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Utility Theory of Synthetic Data Generation [12.511220449652384]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - One Step to Efficient Synthetic Data [9.3000873953175]
合成データに対する一般的なアプローチは、適合したモデルからサンプルをサンプリングすることである。
提案手法は非効率な推定器のサンプルとなり, 関節分布が真の分布と矛盾することを示す。
そこで本研究では,合成データの一般的な生成法を提案する。
論文 参考訳(メタデータ) (2020-06-03T17:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。