論文の概要: Prediction with Missing Data
- arxiv url: http://arxiv.org/abs/2104.03158v1
- Date: Wed, 7 Apr 2021 14:45:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 13:02:05.664635
- Title: Prediction with Missing Data
- Title(参考訳): 欠測データによる予測
- Authors: Dimitris Bertsimas, Arthur Delarue, Jean Pauphilet
- Abstract要約: 広く使用されているデータインプット手法の理論的分析を提供し、正確な予測の鍵となる欠陥を強調します。
適応線形回帰(Adaptive linear regression)は、部分的に観測されたデータに基づいて直接訓練し評価できる新しいモデルのクラスである。
理論的な発見と適応回帰アプローチを実世界のデータセットで数値的に検証します。
- 参考スコア(独自算出の注目度): 4.748262442427778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Missing information is inevitable in real-world data sets. While imputation
is well-suited and theoretically sound for statistical inference, its relevance
and practical implementation for out-of-sample prediction remains unsettled. We
provide a theoretical analysis of widely used data imputation methods and
highlight their key deficiencies in making accurate predictions. Alternatively,
we propose adaptive linear regression, a new class of models that can be
directly trained and evaluated on partially observed data, adapting to the set
of available features. In particular, we show that certain adaptive regression
models are equivalent to impute-then-regress methods where the imputation and
the regression models are learned simultaneously instead of sequentially. We
validate our theoretical findings and adaptive regression approach with
numerical results with real-world data sets.
- Abstract(参考訳): 現実のデータセットでは、欠落情報は避けられない。
インプテーションは統計的推論によく適合しており、理論的には正しいが、その妥当性と実効的な予測の実装は未確定である。
広く用いられているデータインプテーション法の理論的解析を行い、正確な予測を行う上での重要な欠陥を強調する。
あるいは、適応線形回帰(Adaptive linear regression)を提案する。これは、利用可能な一連の特徴に適応して、部分的に観測されたデータに基づいて直接訓練し、評価できる新しいモデルのクラスである。
特に,ある適応回帰モデルは,逐次的ではなくインプットモデルと回帰モデルを同時に学習するインプット・テン・レグレッション法と同値であることを示す。
実世界のデータセットを用いた数値計算結果を用いて理論的結果と適応回帰手法を検証する。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [60.98692028151328]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,この学習規則が将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
我々は拡散モデルに一般結果を特化し、自己消費ループ内での最適な早期停止の有効性などの微妙な洞察を提供する。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - A Bias-Variance Decomposition for Ensembles over Multiple Synthetic
Datasets [4.777272940677689]
最近の研究は、教師あり学習のための複数の合成データセットを生成する利点を強調している。
これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。
複数の合成データセットを使用するいくつかの設定に対して、バイアス分散分解を導出することで理論的理解を高めることを目指す。
論文 参考訳(メタデータ) (2024-02-06T13:20:46Z) - Synthetic Data: Can We Trust Statistical Estimators? [41.67560576869115]
推定値が偏りなくても, 偽陽性の発見率(タイプ1の誤り)は許容できないほど高いと論じる。
このようなデータに対する統計的推論ツールを開発することが不可欠である。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Utility Theory of Synthetic Data Generation [14.061357975073319]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Learnability of Competitive Threshold Models [11.005966612053262]
理論的観点から,競合しきい値モデルの学習可能性について検討する。
ニューラルネットワークによって競合しきい値モデルをシームレスにシミュレートする方法を実証する。
論文 参考訳(メタデータ) (2022-05-08T01:11:51Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。