論文の概要: Density Ratio Estimation and Neyman Pearson Classification with Missing
Data
- arxiv url: http://arxiv.org/abs/2302.10655v1
- Date: Tue, 21 Feb 2023 13:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 15:11:12.278797
- Title: Density Ratio Estimation and Neyman Pearson Classification with Missing
Data
- Title(参考訳): 欠損データを用いた密度比推定とナイマンピアソン分類
- Authors: Josh Givens, Song Liu, Henry W J Reeve
- Abstract要約: ランダムデータ(MNAR)を欠いた密度比推定の課題について考察する。
提案手法が一貫性を回復している間に,標準のDRE手法を用いることでバイアスのある結果が得られることを示す。
また,合成データと実世界のデータの両方に,擬似的欠落を伴う有望な経験的性能を示す。
- 参考スコア(独自算出の注目度): 7.974645896897937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Density Ratio Estimation (DRE) is an important machine learning technique
with many downstream applications. We consider the challenge of DRE with
missing not at random (MNAR) data. In this setting, we show that using standard
DRE methods leads to biased results while our proposal (M-KLIEP), an adaptation
of the popular DRE procedure KLIEP, restores consistency. Moreover, we provide
finite sample estimation error bounds for M-KLIEP, which demonstrate minimax
optimality with respect to both sample size and worst-case missingness. We then
adapt an important downstream application of DRE, Neyman-Pearson (NP)
classification, to this MNAR setting. Our procedure both controls Type I error
and achieves high power, with high probability. Finally, we demonstrate
promising empirical performance both synthetic data and real-world data with
simulated missingness.
- Abstract(参考訳): 密度比推定(DRE)は多くの下流アプリケーションで重要な機械学習手法である。
ランダムデータ(MNAR)を欠いたDREの課題について考察する。
本稿では,標準DRE手法を用いることで,一般的なDRE手法であるKLIEPの適応であるM-KLIEP(M-KLIEP)が整合性を回復することを示す。
さらに,M-KLIEPに対する有限サンプル推定誤差境界を提供し,サンプルサイズと最悪ケースの欠落について,最小限の最適性を示す。
次に、このMNAR設定に、DRE、Neyman-Pearson(NP)分類の重要な下流応用を適用する。
我々の手順はタイプiのエラーを制御し、高い確率で高出力を達成する。
最後に,合成データと実世界データの両方に有望な経験的性能を示す。
関連論文リスト
- DiffImpute: Tabular Data Imputation With Denoising Diffusion Probabilistic Model [9.908561639396273]
DiffImputeという新しい拡散確率モデル(DDPM)を提案する。
既存のデータの信頼性を損なうことなく、欠落したエントリに対して信頼できる警告を生成する。
Missing Completely At Random (MCAR) と Missing At Random (MAR) の様々な設定に適用できる。
論文 参考訳(メタデータ) (2024-03-20T08:45:31Z) - Marginal Debiased Network for Fair Visual Recognition [59.05212866862219]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
我々のMDNは、表現不足のサンプルに対して顕著な性能を達成できる。
論文 参考訳(メタデータ) (2024-01-04T08:57:09Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Development of fully intuitionistic fuzzy data envelopment analysis
model with missing data: an application to Indian police sector [2.9434930072968584]
DEAは意思決定単位(DMU)の効率を測定する技術である
通常、データは人間、機械、またはその両方によって収集される。
データの欠落した値と不正確性に対処できる方法が提示される。
本報告では,インドにおける警察署の性能効率を実生活で測定するアプリケーションについて述べる。
論文 参考訳(メタデータ) (2022-07-27T18:20:13Z) - OMASGAN: Out-of-Distribution Minimum Anomaly Score GAN for Sample
Generation on the Boundary [0.0]
生成モデルは, アウト・オブ・ディストリビューション(OoD)サンプルに高い可能性と低い再構成損失を設定した。
OMASGANは、負のデータ増大方法で、推定分布境界上の異常サンプルを生成する。
OMASGANは、分布境界上に発生する異常最小値のOoDサンプルを含むことにより、再訓練を行う。
論文 参考訳(メタデータ) (2021-10-28T16:35:30Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - AdaPT-GMM: Powerful and robust covariate-assisted multiple testing [0.7614628596146599]
偽発見率(FDR)制御を用いた複数検定の実証的ベイズ法を提案する。
本手法は,アダプティブp値しきい値法(AdaPT)をマスク方式の一般化により洗練する。
我々は、AdaPT-GMMと呼ばれる新しい手法が一貫して高出力を実現することを、広範囲にわたるシミュレーションと実データ例で示す。
論文 参考訳(メタデータ) (2021-06-30T05:06:18Z) - Federated Deep AUC Maximization for Heterogeneous Data with a Constant
Communication Complexity [77.78624443410216]
異種胸部データ検出のための改良型FDAMアルゴリズムを提案する。
本研究は,提案アルゴリズムの通信が機械数に強く依存し,精度レベルにも強く依存していることを示す。
FDAMアルゴリズムのベンチマークデータセットと、異なる組織の医療用胸部X線画像に対する効果を実験により実証した。
論文 参考訳(メタデータ) (2021-02-09T04:05:19Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - Missing Data Imputation using Optimal Transport [43.14084843713895]
最適輸送距離を利用して基準を定量化し、損失関数に変換し、欠落したデータ値をインプットする。
エンド・ツー・エンド・ラーニングを用いてこれらの損失を最小限に抑えるための実践的手法を提案する。
これらの実験により、OTベースの手法は、欠落した値の高い割合であっても、最先端の計算手法と一致しているか、性能が良くないことを示す。
論文 参考訳(メタデータ) (2020-02-10T15:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。