論文の概要: A Unified Framework for Inference with General Missingness Patterns and Machine Learning Imputation
- arxiv url: http://arxiv.org/abs/2508.15162v1
- Date: Thu, 21 Aug 2025 01:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.142486
- Title: A Unified Framework for Inference with General Missingness Patterns and Machine Learning Imputation
- Title(参考訳): 一般失語パターンと機械学習インプットを用いた一元的推論フレームワーク
- Authors: Xingran Chen, Tyler McCormick, Bhramar Mukherjee, Zhenke Wu,
- Abstract要約: 本稿では,一般的なZ推定問題に対して有効な統計的推論フレームワークを提供する新しい手法を提案する。
提案した推定器の正規性の理論的保証と重み付き完全ケース解析に対する効率優位性を提供する。
- 参考スコア(独自算出の注目度): 12.817707155207817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained machine learning (ML) predictions have been increasingly used to complement incomplete data to enable downstream scientific inquiries, but their naive integration risks biased inferences. Recently, multiple methods have been developed to provide valid inference with ML imputations regardless of prediction quality and to enhance efficiency relative to complete-case analyses. However, existing approaches are often limited to missing outcomes under a missing-completely-at-random (MCAR) assumption, failing to handle general missingness patterns under the more realistic missing-at-random (MAR) assumption. This paper develops a novel method which delivers valid statistical inference framework for general Z-estimation problems using ML imputations under the MAR assumption and for general missingness patterns. The core technical idea is to stratify observations by distinct missingness patterns and construct an estimator by appropriately weighting and aggregating pattern-specific information through a masking-and-imputation procedure on the complete cases. We provide theoretical guarantees of asymptotic normality of the proposed estimator and efficiency dominance over weighted complete-case analyses. Practically, the method affords simple implementations by leveraging existing weighted complete-case analysis software. Extensive simulations are carried out to validate theoretical results. The paper concludes with a brief discussion on practical implications, limitations, and potential future directions.
- Abstract(参考訳): 事前学習された機械学習(ML)予測は、下流の科学的調査を可能にするために不完全なデータを補完するためにますます使われてきたが、彼らの単純な統合リスクは推論に偏っている。
近年,予測品質に拘わらず,ML命令を有効に推論する手法が複数開発され,完全ケース解析に対する効率の向上が図られている。
しかし、既存のアプローチは、MCARの仮定では欠落した結果に制限されることが多く、MARの仮定では一般的な欠落パターンに対処できない。
本稿では,ML命令を用いた一般Z推定問題に対して,MAR仮定と一般的な欠落パターンに対して有効な統計的推定フレームワークを提供する手法を提案する。
中心となる技術的考え方は、観察を異なる欠落パターンで階層化し、完全なケースのマスキング・アンド・インプット手順を通じてパターン固有の情報を適切に重み付けし集約することにより、推定器を構築することである。
提案した推定器の漸近正規性の理論的保証と重み付き完全ケース解析に対する効率優位性を提供する。
本手法は,既存の重み付き全ケース解析ソフトウェアを活用することで,簡単な実装を実現する。
理論的結果を検証するため, 広範囲なシミュレーションを行った。
本稿は、実践的含意、限界、将来的な方向性に関する簡単な議論で締めくくっている。
関連論文リスト
- Multiply Robust Conformal Risk Control with Coarsened Data [0.0]
コンフォーマル予測(CP)は近年,膨大な関心を集めている。
本稿では、粗いデータから得られる結果に対して、分布自由な有効予測領域を得るという一般的な問題について考察する。
半パラメトリック理論の原則的利用は、フレキシブルな機械学習手法の促進の鍵となる利点を持つ。
論文 参考訳(メタデータ) (2025-08-21T12:14:44Z) - Uncertainty Quantification for Machine Learning-Based Prediction: A Polynomial Chaos Expansion Approach for Joint Model and Input Uncertainty Propagation [1.223779595809275]
本稿では,多相カオス拡張(PCE)に基づくロバストなフレームワークを提案する。
全てのランダム入力を統一された標準空間に変換することにより、PCEサロゲートモデルを構築し、出力の平均偏差と標準偏差の効率的かつ正確な計算を可能にする。
論文 参考訳(メタデータ) (2025-07-20T01:47:50Z) - MIRRAMS: Learning Robust Tabular Models under Unseen Missingness Shifts [2.5357049657770516]
欠落した値はしばしばデータ収集ポリシーのバリエーションを反映し、時間や場所によって変化することがある。
このようなトレーニングとテストインプットの間の不足分布の変化は、堅牢な予測性能を達成する上で大きな課題となる。
この課題に対処するために設計された,新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-11T03:03:30Z) - Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本研究では,高次元因果推論モデルの一般化可能性を統計的に評価するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z) - Task-Agnostic Machine-Learning-Assisted Inference [0.0]
タスクに依存しないML支援推論のためのPSPSという新しい統計フレームワークを提案する。
PSPSは、ほぼすべての確立したデータ分析ルーチンに簡単にプラグインできる予測後推論ソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-30T13:19:49Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Non-Linear Spectral Dimensionality Reduction Under Uncertainty [107.01839211235583]
我々は、不確実性情報を活用し、いくつかの従来のアプローチを直接拡張する、NGEUと呼ばれる新しい次元削減フレームワークを提案する。
提案したNGEUの定式化は,大域的な閉形式解を示し,Radecherの複雑性に基づいて,基礎となる不確実性がフレームワークの一般化能力に理論的にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2022-02-09T19:01:33Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。