論文の概要: Missing Value Knockoffs
- arxiv url: http://arxiv.org/abs/2202.13054v1
- Date: Sat, 26 Feb 2022 04:05:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 14:16:43.210607
- Title: Missing Value Knockoffs
- Title(参考訳): 価値ノックオフの欠如
- Authors: Deniz Koyuncu, B\"ulent Yener
- Abstract要約: 最近導入された model-x knockoffs というフレームワークは、幅広いモデルに対してそれを提供するが、値の欠如のあるデータセットはサポートされていない。
提案手法では, 既存のノックオフサンプリングを, 欠落した値の存在下で再利用できることを示す。
また、ノックオフを共同で計算し、サンプリングすることで、計算の複雑さを軽減できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One limitation of the most statistical/machine learning-based variable
selection approaches is their inability to control the false selections. A
recently introduced framework, model-x knockoffs, provides that to a wide range
of models but lacks support for datasets with missing values. In this work, we
discuss ways of preserving the theoretical guarantees of the model-x framework
in the missing data setting. First, we prove that posterior sampled imputation
allows reusing existing knockoff samplers in the presence of missing values.
Second, we show that sampling knockoffs only for the observed variables and
applying univariate imputation also preserves the false selection guarantees.
Third, for the special case of latent variable models, we demonstrate how
jointly imputing and sampling knockoffs can reduce the computational
complexity. We have verified the theoretical findings with two different
exploratory variable distributions and investigated how the missing data
pattern, amount of correlation, the number of observations, and missing values
affected the statistical power.
- Abstract(参考訳): 最も統計的/機械学習ベースの変数選択アプローチの制限のひとつは、誤った選択を制御できないことだ。
最近導入されたModel-xのノックオフは、幅広いモデルに対してそれを提供するが、値の欠如のあるデータセットのサポートがない。
本稿では,データ設定の欠如によるモデル-xフレームワークの理論的保証を維持する方法について論じる。
まず,既存のノックオフサンプルを欠落した値の存在下で再利用できることを示す。
第2に、観測変数にのみノックオフをサンプリングし、単変量計算を適用することにより、偽選択保証も維持されることを示す。
第三に, 潜伏変数モデルの特殊な場合において, 同時インデュートとサンプリングのノックオフが計算複雑性を低減できることを示す。
本研究では,2つの異なる探索変数分布を用いて理論的知見を検証し,データパターンの欠如,相関量,観測数,欠落値が統計的パワーに与える影響について検討した。
関連論文リスト
- DistPred: A Distribution-Free Probabilistic Inference Method for Regression and Forecasting [14.390842560217743]
本稿では、回帰予測タスクのためのDistPredという新しい手法を提案する。
予測分布と対象分布の差分を測定するための適切なスコアリングルールを、微分可能な離散形式に変換する。
これにより、モデルは単一のフォワードパスで多数のサンプルをサンプリングし、応答変数の潜在的分布を推定することができる。
論文 参考訳(メタデータ) (2024-06-17T10:33:00Z) - Sufficient Identification Conditions and Semiparametric Estimation under
Missing Not at Random Mechanisms [4.211128681972148]
統計的に有効な分析を行うことは、MNARデータの存在において困難である。
従来のMNARモデルを2つの方法で一般化したMNARモデルを考える。
そこで本稿では,確率比をパラメータとして,そのようなモデルで符号化された独立性制約をテストする手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T13:46:16Z) - Sharing pattern submodels for prediction with missing values [12.981974894538668]
機械学習の多くのアプリケーションでは欠落値は避けられず、トレーニング中もテスト時にも課題が提示される。
パターンサブモデル(パターンサブモデル)と呼ばれる別の手法を提案する。これは、テスト時に欠落した値に対して、予測を堅牢にし、パターンサブモデルの予測力を維持または改善させる。
論文 参考訳(メタデータ) (2022-06-22T15:09:40Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Contextual Dropout: An Efficient Sample-Dependent Dropout Module [60.63525456640462]
ドロップアウトは、ディープニューラルネットワークのトレーニングプロセスを正規化するシンプルで効果的なモジュールとして実証されています。
単純でスケーラブルなサンプル依存型ドロップアウトモジュールとして,効率的な構造設計によるコンテキスト型ドロップアウトを提案する。
提案手法は,不確実性推定の精度と品質の両面において,ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2021-03-06T19:30:32Z) - Deep Generative Pattern-Set Mixture Models for Nonignorable Missingness [0.0]
無視できないデータと無視できないデータの両方をモデル化する可変オートエンコーダアーキテクチャを提案する。
モデルでは,観測されたデータと欠落マスクに基づいて,欠落したデータを欠落パターンにクラスタ化することを明示的に学習する。
当社のセットアップでは,無知かつ無知な欠如の特性をトレードオフすることで,両タイプのデータに適用することが可能である。
論文 参考訳(メタデータ) (2021-03-05T08:21:35Z) - A Note on High-Probability versus In-Expectation Guarantees of
Generalization Bounds in Machine Learning [95.48744259567837]
統計的機械学習理論は、しばしば機械学習モデルの一般化を保証するよう試みる。
機械学習モデルのパフォーマンスに関する声明は、サンプリングプロセスを考慮する必要がある。
1つのステートメントを別のステートメントに変換する方法を示します。
論文 参考訳(メタデータ) (2020-10-06T09:41:35Z) - Tractable Inference in Credal Sentential Decision Diagrams [116.6516175350871]
確率感性決定図は、解離ゲートの入力が確率値によってアノテートされる論理回路である。
我々は、局所確率を質量関数のクレーダル集合に置き換えることができる確率の一般化である、クレーダル感性決定図を開発する。
まず,ノイズの多い7セグメント表示画像に基づく簡単なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2020-08-19T16:04:34Z) - not-MIWAE: Deep Generative Modelling with Missing not at Random Data [21.977065542645082]
本稿では、欠落したプロセスが欠落したデータに依存している場合に、DLVM(Deep Latent variable Model)を構築し、適合させるアプローチを提案する。
具体的には、深層ニューラルネットワークにより、データから得られる欠損パターンの条件分布を柔軟にモデル化することができる。
欠落したプロセスを明示的にモデル化する様々なデータセットと欠落パターンが有用であることを示す。
論文 参考訳(メタデータ) (2020-06-23T10:06:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。