論文の概要: The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data
- arxiv url: http://arxiv.org/abs/2305.12789v2
- Date: Sun, 31 Dec 2023 11:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 02:32:18.297327
- Title: The Decaying Missing-at-Random Framework: Doubly Robust Causal Inference
with Partially Labeled Data
- Title(参考訳): ランダム化の遅れ:部分ラベル付きデータによる二重ロバストな因果推論
- Authors: Yuqian Zhang, Abhishek Chakrabortty and Jelena Bradic
- Abstract要約: 現実のシナリオでは、データ収集の制限によって部分的にラベル付けされたデータセットが生成されることが多く、信頼性の高い因果推論の描画が困難になる。
半パラメトリック(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
このフレームワークは、高次元設定における欠落した結果に対処し、選択バイアスを考慮に入れます。
- 参考スコア(独自算出の注目度): 10.021381302215062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world scenarios, data collection limitations often result in
partially labeled datasets, leading to difficulties in drawing reliable causal
inferences. Traditional approaches in the semi-supervised (SS) and missing data
literature may not adequately handle these complexities, leading to biased
estimates. To address these challenges, our paper introduces a novel decaying
missing-at-random (decaying MAR) framework. This framework tackles missing
outcomes in high-dimensional settings and accounts for selection bias arising
from the dependence of labeling probability on covariates. Notably, we relax
the need for a positivity condition, commonly required in the missing data
literature, and allow uniform decay of labeling propensity scores with sample
size, accommodating faster growth of unlabeled data. Our decaying MAR framework
enables easy rate double-robust (DR) estimation of average treatment effects,
succeeding where other methods fail, even with correctly specified nuisance
models. Additionally, it facilitates asymptotic normality under model
misspecification. To achieve this, we propose adaptive new targeted
bias-reducing nuisance estimators and asymmetric cross-fitting, along with a
novel semi-parametric approach that fully leverages large volumes of unlabeled
data. Our approach requires weak sparsity conditions. Numerical results confirm
our estimators' efficacy and versatility, addressing selection bias and model
misspecification.
- Abstract(参考訳): 現実のシナリオでは、データ収集の制限はしばしば部分的にラベル付けされたデータセットを生じさせ、信頼できる因果推論を作成するのが困難になる。
半教師付き(SS)や欠落したデータ文学における従来のアプローチは、これらの複雑さを適切に扱えないため、偏りのある見積もりにつながる可能性がある。
これらの課題に対処するため,本論文では,失語症(MAR)の新たな枠組みを提案する。
この枠組みは、高次元の設定において欠落した結果に対処し、共変量に対するラベリング確率の依存性から生じる選択バイアスを考慮に入れる。
特に、欠落データ文献で一般的に必要とされる肯定的条件の必要性を緩和し、サンプルサイズのラベル付け確率スコアの均一な減衰を許容し、ラベルなしデータの高速な成長を調節する。
我々の劣化するMARフレームワークは、正確に特定されたニュアンスモデルであっても、平均処理効果の2倍燃焼(DR)推定が可能である。
さらに、モデル不特定の下での漸近正常化を促進する。
そこで本研究では,非ラベルデータ量を完全に活用する新しい半パラメトリック手法とともに,適応型新たなバイアス低減型ニュアンス推定器と非対称クロスフィッティングを提案する。
われわれのアプローチには空間条件が弱い。
提案手法の有効性と汎用性を確認し,選択バイアスとモデル誤特定に対処した。
関連論文リスト
- Learning from Noisy Labels via Conditional Distributionally Robust Optimization [5.85767711644773]
クラウドソーシングは、大規模なデータセットをラベル付けするための実用的なソリューションとして現れました。
これは、様々なレベルの専門知識を持つアノテータからのノイズの多いラベルによって、正確なモデルを学習する上で大きな課題となる。
論文 参考訳(メタデータ) (2024-11-26T05:03:26Z) - ROTI-GCV: Generalized Cross-Validation for right-ROTationally Invariant Data [1.194799054956877]
高次元正規化回帰における2つの重要なタスクは、正確な予測のために正規化強度を調整し、サンプル外リスクを推定することである。
問題のある条件下でクロスバリデーションを確実に行うための新しいフレームワーク ROTI-GCV を導入する。
論文 参考訳(メタデータ) (2024-06-17T15:50:00Z) - Learning with Complementary Labels Revisited: The Selected-Completely-at-Random Setting Is More Practical [66.57396042747706]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫したアプローチを提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Rethinking Missing Data: Aleatoric Uncertainty-Aware Recommendation [59.500347564280204]
本稿では, Aleatoric Uncertainty-aware Recommendation (AUR) フレームワークを提案する。
AURは、新しい不確実性推定器と通常のレコメンデータモデルで構成されている。
誤ラベルの可能性がペアの可能性を反映しているため、AURは不確実性に応じてレコメンデーションを行う。
論文 参考訳(メタデータ) (2022-09-22T04:32:51Z) - Holistic Robust Data-Driven Decisions [0.0]
実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。
ここでは, (i) 有限サンプルデータを用いた結果の統計的誤差, (ii) データポイントを有限精度で測定した場合に発生するデータノイズ, (iii) データのごく一部が完全に破損する可能性のあるデータ不特定性という3つの過度な結果について考察する。
既存のデータ駆動型定式化は、これらの3つのソースのうちの1つに対して、独立して堅牢であるかもしれないが、すべてのオーバーフィットソースに対して、全体的な保護を提供していない、と我々は主張する。
論文 参考訳(メタデータ) (2022-07-19T21:28:51Z) - Gray Learning from Non-IID Data with Out-of-distribution Samples [45.788789553551176]
専門家が注釈を付けたとしても、トレーニングデータの完全性は保証されていない。
我々は,基本真実と相補的ラベルを両立させる新しいアプローチであるtextitGray Learningを導入する。
統計学習理論における我々のアプローチを基礎として、一般化誤差の境界を導出し、GLが非IID設定でも厳密な制約を達成できることを実証する。
論文 参考訳(メタデータ) (2022-06-19T10:46:38Z) - Double Robust Semi-Supervised Inference for the Mean: Selection Bias
under MAR Labeling with Decaying Overlap [11.758346319792361]
近年,半教師付き推論 (SS) が注目されている。
SS文献の多くは、L と U が等しく分布していると暗黙的に仮定している。
選択バイアスを許容するランダム(MAR)型ラベリングの欠落は、確率スコア(PS)の減衰特性によって必然的に悪化する。
論文 参考訳(メタデータ) (2021-04-14T07:27:27Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Unsupervised Robust Domain Adaptation without Source Data [75.85602424699447]
我々は、利用できないターゲットラベルとソースデータのコンテキストにおけるロバストなドメイン適応の問題について研究する。
4つのベンチマークデータセットでテストされたベースラインに対して10%以上の精度で一貫したパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-03-26T16:42:28Z) - Exploiting Sample Uncertainty for Domain Adaptive Person
Re-Identification [137.9939571408506]
各サンプルに割り当てられた擬似ラベルの信頼性を推定・活用し,ノイズラベルの影響を緩和する。
不確実性に基づく最適化は大幅な改善をもたらし、ベンチマークデータセットにおける最先端のパフォーマンスを達成します。
論文 参考訳(メタデータ) (2020-12-16T04:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。