論文の概要: Prediction with Missing Data
- arxiv url: http://arxiv.org/abs/2104.03158v1
- Date: Wed, 7 Apr 2021 14:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:02:05.664635
- Title: Prediction with Missing Data
- Title(参考訳): 欠測データによる予測
- Authors: Dimitris Bertsimas, Arthur Delarue, Jean Pauphilet
- Abstract要約: 広く使用されているデータインプット手法の理論的分析を提供し、正確な予測の鍵となる欠陥を強調します。
適応線形回帰(Adaptive linear regression)は、部分的に観測されたデータに基づいて直接訓練し評価できる新しいモデルのクラスである。
理論的な発見と適応回帰アプローチを実世界のデータセットで数値的に検証します。
- 参考スコア(独自算出の注目度): 4.748262442427778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing information is inevitable in real-world data sets. While imputation
is well-suited and theoretically sound for statistical inference, its relevance
and practical implementation for out-of-sample prediction remains unsettled. We
provide a theoretical analysis of widely used data imputation methods and
highlight their key deficiencies in making accurate predictions. Alternatively,
we propose adaptive linear regression, a new class of models that can be
directly trained and evaluated on partially observed data, adapting to the set
of available features. In particular, we show that certain adaptive regression
models are equivalent to impute-then-regress methods where the imputation and
the regression models are learned simultaneously instead of sequentially. We
validate our theoretical findings and adaptive regression approach with
numerical results with real-world data sets.
- Abstract(参考訳): 現実のデータセットでは、欠落情報は避けられない。
インプテーションは統計的推論によく適合しており、理論的には正しいが、その妥当性と実効的な予測の実装は未確定である。
広く用いられているデータインプテーション法の理論的解析を行い、正確な予測を行う上での重要な欠陥を強調する。
あるいは、適応線形回帰(Adaptive linear regression)を提案する。これは、利用可能な一連の特徴に適応して、部分的に観測されたデータに基づいて直接訓練し、評価できる新しいモデルのクラスである。
特に,ある適応回帰モデルは,逐次的ではなくインプットモデルと回帰モデルを同時に学習するインプット・テン・レグレッション法と同値であることを示す。
実世界のデータセットを用いた数値計算結果を用いて理論的結果と適応回帰手法を検証する。
関連論文リスト
- Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Towards Characterizing Domain Counterfactuals For Invertible Latent Causal Models [15.817239008727789]
本研究では,異なるドメインで生成された場合,サンプルがどのようなものであったのかを仮定した,ドメイン反事実と呼ばれる特定のタイプの因果クエリを解析する。
本研究では, 潜在構造因果モデル (SCM) の回復は, ドメイン・デファクト・デファクトを推定するために不要であることを示す。
また、モデル生成過程を単純化し、生成モデル推定を行うための理論的基盤となる実用的なアルゴリズムも開発する。
論文 参考訳(メタデータ) (2023-06-20T04:19:06Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Utility Theory of Synthetic Data Generation [12.511220449652384]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - One Step to Efficient Synthetic Data [9.3000873953175]
合成データに対する一般的なアプローチは、適合したモデルからサンプルをサンプリングすることである。
提案手法は非効率な推定器のサンプルとなり, 関節分布が真の分布と矛盾することを示す。
そこで本研究では,合成データの一般的な生成法を提案する。
論文 参考訳(メタデータ) (2020-06-03T17:12:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。