Fugu-MT 論文翻訳(概要): Simple Imputation Rules for Prediction with Missing Data: Contrasting Theoretical Guarantees with Empirical Performance

論文の概要: Simple Imputation Rules for Prediction with Missing Data: Contrasting Theoretical Guarantees with Empirical Performance

arxiv url: http://arxiv.org/abs/2104.03158v3
Date: Fri, 2 Feb 2024 07:58:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 21:00:37.263107
Title: Simple Imputation Rules for Prediction with Missing Data: Contrasting Theoretical Guarantees with Empirical Performance
Title（参考訳）: 欠測データを用いた予測のための簡易計算規則--理論的保証と経験的性能の対比
Authors: Dimitris Bertsimas, Arthur Delarue, Jean Pauphilet
Abstract要約: 実際のデータセットでは、データの欠落が一般的な問題である。本稿では, 理論的, 実証的証拠を対比して, 即効性パイプラインの性能について検討する。
参考スコア（独自算出の注目度）: 7.642646077340124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Missing data is a common issue in real-world datasets. This paper studies the performance of impute-then-regress pipelines by contrasting theoretical and empirical evidence. We establish the asymptotic consistency of such pipelines for a broad family of imputation methods. While common sense suggests that a `good' imputation method produces datasets that are plausible, we show, on the contrary, that, as far as prediction is concerned, crude can be good. Among others, we find that mode-impute is asymptotically sub-optimal, while mean-impute is asymptotically optimal. We then exhaustively assess the validity of these theoretical conclusions on a large corpus of synthetic, semi-real, and real datasets. While the empirical evidence we collect mostly supports our theoretical findings, it also highlights gaps between theory and practice and opportunities for future research, regarding the relevance of the MAR assumption, the complex interdependency between the imputation and regression tasks, and the need for realistic synthetic data generation models.
Abstract（参考訳）: データの欠落は、現実世界のデータセットでよくある問題である。本稿では, 理論と経験的証拠を対比して, インデュート・テン・レグレッシブ・パイプラインの性能について検討する。このようなパイプラインの漸近的一貫性を,様々なインプテーション法に対して確立する。一般的な意味では,「良い」計算手法は妥当なデータセットを生成することを示唆するが,それとは対照的に,予測に関しても,原油は良いものであることを示す。特に,mode-impute は漸近的に最適であり, mean-impute は漸近的に最適である。次に, 合成, 半実, 実データセットの大規模コーパスにおける理論的結論の有効性を徹底的に評価する。私たちが収集した実証的な証拠は、主に理論的な結果を支持するが、MAR仮定の関連性、計算タスクと回帰タスクの複雑な相互依存性、現実的な合成データ生成モデルの必要性など、理論と実践のギャップと将来の研究機会も強調する。

関連論文リスト

Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文参考訳（メタデータ） (2025-10-21T16:16:00Z)
Beyond Real Data: Synthetic Data through the Lens of Regularization [9.459299281438074]
合成データは、実際のデータが不足しているときに一般化を改善することができるが、過度な依存は、性能を低下させる分布ミスマッチをもたらす可能性がある。本稿では,合成データと実データとのトレードオフを定量化する学習理論フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-09T11:33:09Z)
Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文参考訳（メタデータ） (2025-08-08T18:32:52Z)
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文参考訳（メタデータ） (2024-11-10T16:40:27Z)
Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文参考訳（メタデータ） (2024-02-19T02:08:09Z)
The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文参考訳（メタデータ） (2023-12-13T02:04:41Z)
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T09:41:19Z)
Towards Characterizing Domain Counterfactuals For Invertible Latent Causal Models [15.817239008727789]
本研究では,異なるドメインで生成された場合,サンプルがどのようなものであったのかを仮定した,ドメイン反事実と呼ばれる特定のタイプの因果クエリを解析する。本研究では, 潜在構造因果モデル (SCM) の回復は, ドメイン・デファクト・デファクトを推定するために不要であることを示す。また、モデル生成過程を単純化し、生成モデル推定を行うための理論的基盤となる実用的なアルゴリズムも開発する。
論文参考訳（メタデータ） (2023-06-20T04:19:06Z)
Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文参考訳（メタデータ） (2023-06-09T08:30:51Z)
Utility Theory of Synthetic Data Generation [12.511220449652384]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文参考訳（メタデータ） (2023-05-17T07:49:16Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文参考訳（メタデータ） (2020-10-15T16:39:26Z)
One Step to Efficient Synthetic Data [9.3000873953175]
合成データに対する一般的なアプローチは、適合したモデルからサンプルをサンプリングすることである。提案手法は非効率な推定器のサンプルとなり, 関節分布が真の分布と矛盾することを示す。そこで本研究では,合成データの一般的な生成法を提案する。
論文参考訳（メタデータ） (2020-06-03T17:12:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。