論文の概要: Zero Inflation as a Missing Data Problem: a Proxy-based Approach
- arxiv url: http://arxiv.org/abs/2406.00549v1
- Date: Sat, 1 Jun 2024 20:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 06:25:48.245436
- Title: Zero Inflation as a Missing Data Problem: a Proxy-based Approach
- Title(参考訳): 不足データ問題としてのゼロインフレ--プロキシベースのアプローチ
- Authors: Trung Phung, Jaron J. R. Lee, Opeyemi Oladapo-Shittu, Eili Y. Klein, Ayse Pinar Gurses, Susan M. Hannum, Kimberly Weems, Jill A. Marsteller, Sara E. Cosgrove, Sara C. Keller, Ilya Shpitser,
- Abstract要約: 共通型のゼロ膨らんだデータは、ある真の値を誤ってゼロに置き換える。
本稿では、ゼロインフレーションされたデータを、欠落データ問題の一般的なタイプとみなす。
追加の仮定なしでは、ゼロインフレード変数を含むターゲットパラメータが特定されないことを示す。
- 参考スコア(独自算出の注目度): 4.981774157564172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common type of zero-inflated data has certain true values incorrectly replaced by zeros due to data recording conventions (rare outcomes assumed to be absent) or details of data recording equipment (e.g. artificial zeros in gene expression data). Existing methods for zero-inflated data either fit the observed data likelihood via parametric mixture models that explicitly represent excess zeros, or aim to replace excess zeros by imputed values. If the goal of the analysis relies on knowing true data realizations, a particular challenge with zero-inflated data is identifiability, since it is difficult to correctly determine which observed zeros are real and which are inflated. This paper views zero-inflated data as a general type of missing data problem, where the observability indicator for a potentially censored variable is itself unobserved whenever a zero is recorded. We show that, without additional assumptions, target parameters involving a zero-inflated variable are not identified. However, if a proxy of the missingness indicator is observed, a modification of the effect restoration approach of Kuroki and Pearl allows identification and estimation, given the proxy-indicator relationship is known. If this relationship is unknown, our approach yields a partial identification strategy for sensitivity analysis. Specifically, we show that only certain proxy-indicator relationships are compatible with the observed data distribution. We give an analytic bound for this relationship in cases with a categorical outcome, which is sharp in certain models. For more complex cases, sharp numerical bounds may be computed using methods in Duarte et al.[2023]. We illustrate our method via simulation studies and a data application on central line-associated bloodstream infections (CLABSIs).
- Abstract(参考訳): 共通型のゼロインフレドデータは、データ記録規則(欠落と推定される結果)やデータ記録装置の詳細(例えば遺伝子発現データにおける人工ゼロ)により、ある真の値を誤ってゼロに置き換える。
既存のゼロインフレードデータの方法は、過剰なゼロを明示的に表すパラメトリック混合モデルによって観測されたデータの可能性に適合するか、またはインプットされた値によって過剰なゼロを置き換えることを目指している。
解析の目的が真のデータ実現を知ることに依存する場合、観測された零点がどれで、どの点が膨らんでいるのかを正確に決定することは困難であるため、ゼロ膨らませたデータの特定の課題は識別可能である。
本稿では、ゼロ膨らませたデータを、ゼロが記録されるたびに、潜在的に検閲された変数の可観測性インジケータ自体が観測されないような、一般的なタイプの欠落データ問題とみなす。
追加の仮定なしでは、ゼロインフレード変数を含むターゲットパラメータが特定されないことを示す。
しかし,黒木とパールの効果回復手法の修正により,指標と指標の関係が分かっていれば,指標の発見と推定が可能となる。
この関係が不明な場合、本手法は感度解析のための部分的識別戦略を導出する。
具体的には、特定のプロキシとインデックスの関係のみが、観測されたデータ分布と互換性があることを示す。
我々は、あるモデルにおいて鋭い分類結果の場合に、この関係について解析的境界を与える。
より複雑な場合、鋭い数値境界は Duarte et al [2023] の手法で計算できる。
本手法をシミュレーション研究および中央線関連血液ストリーム感染症(CLABSIs)へのデータ応用により概説した。
関連論文リスト
- Gene Regulatory Network Inference in the Presence of Dropouts: a Causal View [15.628930397391137]
遺伝子制御ネットワーク推論(GRNI)は、単一細胞RNAシークエンシングデータにゼロが存在するため、難しい問題である。
本稿では,ドロップアウト機構,すなわちカスルドロップアウトモデルを特徴付ける因果図形モデルを提案する。
データから因果的なドロップアウトモデルを検証することができ、また、ドロップアウトを扱う既存の統計モデルの多くは、特定のパラメトリック・インスタンスとして我々のモデルに適合することを示す。
論文 参考訳(メタデータ) (2024-03-21T21:27:43Z) - Efficient semi-supervised inference for logistic regression under
case-control studies [3.5485531932219243]
ラベル付きデータの結果がバイナリとなる半教師付き設定における推論問題を考える。
ケースコントロールサンプリングは、バイナリデータの不均衡構造を緩和するための効果的なサンプリング手法である。
ラベルのないデータが利用可能であれば、インターセプトパラメータを半教師付き学習設定で識別できることが分かる。
論文 参考訳(メタデータ) (2024-02-23T14:55:58Z) - Federated Causal Discovery from Heterogeneous Data [70.31070224690399]
任意の因果モデルと異種データに対応する新しいFCD法を提案する。
これらのアプローチには、データのプライバシを保護するために、生データのプロキシとして要約統計を構築することが含まれる。
提案手法の有効性を示すために, 合成および実データを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-20T18:53:53Z) - Label Shift Estimators for Non-Ignorable Missing Data [2.605549784939959]
ランダム変数 Y の平均を非無視的欠損(すなわち、不足メカニズムが Y に依存する場合)で推定する問題を考察する。
当社のアプローチは、無視できないアプローチと無視できないアプローチを比較して、大規模な健康調査を用いて、病気の有病率を推定するために使用します。
論文 参考訳(メタデータ) (2023-10-27T16:50:13Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - How Does Pseudo-Labeling Affect the Generalization Error of the
Semi-Supervised Gibbs Algorithm? [73.80001705134147]
擬似ラベル付き半教師付き学習(SSL)におけるGibsアルゴリズムによる予測一般化誤差(ゲンエラー)を正確に評価する。
ゲンエラーは、出力仮説、擬ラベルデータセット、ラベル付きデータセットの間の対称性付きKL情報によって表現される。
論文 参考訳(メタデータ) (2022-10-15T04:11:56Z) - OR-Net: Pointwise Relational Inference for Data Completion under Partial
Observation [51.083573770706636]
この作業はリレーショナル推論を使って不完全なデータを埋めます。
本稿では,2つの点での相対性理論をモデル化するために,全関係ネットワーク (or-net) を提案する。
論文 参考訳(メタデータ) (2021-05-02T06:05:54Z) - Prediction in the presence of response-dependent missing labels [28.932172873182115]
センサー技術の限界は ワイルドファイアデータに ラベルの欠落をもたらします
新しい手法と非ラベルアルゴリズムP(ositive) U(ccurrence) M(agnitude) M(ixture)を開発し、陽性サンプルの発生と検出の可能性を共同で推定します。
論文 参考訳(メタデータ) (2021-03-25T01:43:33Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Linear predictor on linearly-generated data with missing values: non
consistency and solutions [0.0]
本研究では,予測対象が全観測データの線形関数である場合について検討する。
不足する値が存在する場合、最適予測器は線形でない可能性があることを示す。
論文 参考訳(メタデータ) (2020-02-03T11:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。