論文の概要: When Pattern-by-Pattern Works: Theoretical and Empirical Insights for Logistic Models with Missing Values
- arxiv url: http://arxiv.org/abs/2507.13024v1
- Date: Thu, 17 Jul 2025 11:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.476764
- Title: When Pattern-by-Pattern Works: Theoretical and Empirical Insights for Logistic Models with Missing Values
- Title(参考訳): パターン・バイ・パタンが機能する時--損失値をもつロジスティックモデルの理論的および実証的考察-
- Authors: Christophe Muller, Erwan Scornet, Julie Josse,
- Abstract要約: パターン・バイ・パタン戦略 (PbP) がベイズ確率を正確に近似することを証明する。
我々の分析は、欠落した値によるロジスティック回帰に関する総合的な見解を提供する。
- 参考スコア(独自算出の注目度): 10.051332392614368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting a response with partially missing inputs remains a challenging task even in parametric models, since parameter estimation in itself is not sufficient to predict on partially observed inputs. Several works study prediction in linear models. In this paper, we focus on logistic models, which present their own difficulties. From a theoretical perspective, we prove that a Pattern-by-Pattern strategy (PbP), which learns one logistic model per missingness pattern, accurately approximates Bayes probabilities in various missing data scenarios (MCAR, MAR and MNAR). Empirically, we thoroughly compare various methods (constant and iterative imputations, complete case analysis, PbP, and an EM algorithm) across classification, probability estimation, calibration, and parameter inference. Our analysis provides a comprehensive view on the logistic regression with missing values. It reveals that mean imputation can be used as baseline for low sample sizes, and improved performance is obtained via nonlinear multiple iterative imputation techniques with the labels (MICE.RF.Y). For large sample sizes, PbP is the best method for Gaussian mixtures, and we recommend MICE.RF.Y in presence of nonlinear features.
- Abstract(参考訳): パラメータ推定自体が部分的に観察された入力を予測するのに十分ではないため、パラメトリックモデルでも応答を予測することは難しい課題である。
いくつかの研究は線形モデルにおける予測を研究する。
本稿では,ロジスティックモデルに焦点をあてる。
理論的観点からは,パターン・バイ・パタン戦略 (PbP) が欠落パターンごとに1つのロジスティックモデルを学習し,様々な欠落データシナリオ (MCAR, MAR, MNAR) におけるベイズ確率を正確に近似する。
実験では,様々な手法(定数と反復計算,完全ケース解析,PbP,EMアルゴリズム)を,分類,確率推定,キャリブレーション,パラメータ推定で徹底的に比較した。
我々の分析は、欠落した値によるロジスティック回帰に関する総合的な見解を提供する。
その結果, 平均計算量は試料径の低い基準線として利用でき, ラベル付き非線形多重反復計算技術(MICE.RF.Y)による性能向上が期待できることがわかった。
大規模なサンプルサイズでは、PbPはガウス混合の最良の方法であり、非線形特性の存在下ではMICE.RF.Yを推奨する。
関連論文リスト
- Recursive Equations For Imputation Of Missing Not At Random Data With Sparse Pattern Support [8.863778901027061]
データ分析パイプラインで欠落した値を処理するための一般的なアプローチは、ソフトウェアパッケージによる複数の命令である。
我々は、欠落したデータのグラフィカルモデルにおける全データ法則の新たな特徴付けを開発する。
MISPRは、データがMARの場合、MICEに匹敵する結果を得るが、MNARの場合、より優れ、バイアスの少ない結果が得られる。
論文 参考訳(メタデータ) (2025-07-21T23:18:36Z) - SubSearch: Robust Estimation and Outlier Detection for Stochastic Block Models via Subgraph Search [2.082364067210557]
本稿では,SBMパラメータを頑健に推定するアルゴリズムを提案する。
また,本手法は外れ値検出手法として機能し,グラフがモデルから逸脱する原因となるノードを適切に同定し,高次ノードを刈り取るといった単純な手法を克服する。
論文 参考訳(メタデータ) (2025-06-04T07:47:25Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Adaptive Nonparametric Perturbations of Parametric Bayesian Models [33.85958872117418]
非パラメトリック摂動パラメトリック(NPP)ベイズモデルについて検討し、パラメトリックベイズモデルをその可能性の歪みによって緩和する。
NPPモデルはパラメトリックモデルのデータの効率を保ちながら、非モデルのロバスト性を提供できることを示す。
単一細胞RNAシークエンシングデータから遺伝子発現の因果効果を推定し,本手法を実証する。
論文 参考訳(メタデータ) (2024-12-14T05:06:38Z) - Differentiable Calibration of Inexact Stochastic Simulation Models via Kernel Score Minimization [11.955062839855334]
そこで本研究では,勾配降下によるカーネルスコア最小化による出力レベルデータを用いて,シミュレーションモデルの異なる入力パラメータを学習する。
モデル不正確性を考慮した新しい正規化結果を用いて,学習した入力パラメータの不確かさを定量化する。
論文 参考訳(メタデータ) (2024-11-08T04:13:52Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Inverting brain grey matter models with likelihood-free inference: a
tool for trustable cytoarchitecture measurements [62.997667081978825]
脳の灰白質細胞構造の特徴は、体密度と体積に定量的に敏感であり、dMRIでは未解決の課題である。
我々は新しいフォワードモデル、特に新しい方程式系を提案し、比較的スパースなb殻を必要とする。
次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。
論文 参考訳(メタデータ) (2021-11-15T09:08:27Z) - Nonparametric Functional Analysis of Generalized Linear Models Under
Nonlinear Constraints [0.0]
本稿では、一般化線形モデルのための新しい非パラメトリック方法論を紹介する。
これは二項回帰の強さとカテゴリーデータに対する潜在変数の定式化の強さを組み合わせたものである。
これは最近公開された方法論のパラメトリックバージョンを拡張し、一般化する。
論文 参考訳(メタデータ) (2021-10-11T04:49:59Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - An interpretable prediction model for longitudinal dispersion
coefficient in natural streams based on evolutionary symbolic regression
network [30.99493442296212]
縦分散係数(LDC)の予測には様々な方法が提案されている。
本稿では,まずこれらの手法の詳細な解析を行い,その欠陥を明らかにする。
次に、進化的記号回帰ネットワーク(ESRN)と呼ばれる新しい記号回帰法を設計する。
論文 参考訳(メタデータ) (2021-06-17T07:06:05Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。