論文の概要: Flexible variable selection in the presence of missing data
- arxiv url: http://arxiv.org/abs/2202.12989v4
- Date: Tue, 21 Nov 2023 16:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 06:20:48.690460
- Title: Flexible variable selection in the presence of missing data
- Title(参考訳): 欠落データの存在下でのフレキシブルな変数選択
- Authors: B. D. Williamson and Y. Huang
- Abstract要約: 本稿では,非パラメトリックな変数選択アルゴリズムと多重計算を組み合わせることで,非ランダムなデータが存在する場合のフレキシブルなパネルの開発を行う。
提案手法の動作特性は良好であり,より高い分類性能と可変選択性能を有するパネルが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many applications, it is of interest to identify a parsimonious set of
features, or panel, from multiple candidates that achieves a desired level of
performance in predicting a response. This task is often complicated in
practice by missing data arising from the sampling design or other random
mechanisms. Most recent work on variable selection in missing data contexts
relies in some part on a finite-dimensional statistical model, e.g., a
generalized or penalized linear model. In cases where this model is
misspecified, the selected variables may not all be truly scientifically
relevant and can result in panels with suboptimal classification performance.
To address this limitation, we propose a nonparametric variable selection
algorithm combined with multiple imputation to develop flexible panels in the
presence of missing-at-random data. We outline strategies based on the proposed
algorithm that achieve control of commonly used error rates. Through
simulations, we show that our proposal has good operating characteristics and
results in panels with higher classification and variable selection performance
compared to several existing penalized regression approaches in cases where a
generalized linear model is misspecified. Finally, we use the proposed method
to develop biomarker panels for separating pancreatic cysts with differing
malignancy potential in a setting where complicated missingness in the
biomarkers arose due to limited specimen volumes.
- Abstract(参考訳): 多くのアプリケーションにおいて、応答を予測する上で望ましいレベルのパフォーマンスを達成する複数の候補から、同種の機能セット、またはパネルを特定することが関心がある。
このタスクは、サンプリング設計やその他のランダムなメカニズムから生じるデータの欠如によって、しばしば複雑になる。
欠落データコンテキストにおける変数選択に関する最も最近の研究は、有限次元統計モデル(例えば一般化あるいはペナルティ化された線形モデル)に依存する部分がある。
このモデルが不特定化されている場合、選択された変数は必ずしも科学的に関連づけられず、サブ最適分類性能を持つパネルとなる可能性がある。
この制限に対処するために,非パラメトリックな変数選択アルゴリズムと多重計算を組み合わせることで,非ランダムデータの存在下でフレキシブルなパネルを開発する。
提案手法は,一般的な誤り率の制御を行うアルゴリズムに基づく戦略を概説する。
シミュレーションにより,提案手法は動作特性が良好であり,汎用線形モデルが不特定である場合の既設のペナルティ化回帰アプローチと比較して,高い分類と可変選択性能を有するパネルが得られた。
最後に, 試料量が少ないため, 生体マーカーが複雑に欠如する状況において, 膵嚢胞を異なる悪性度で分離するためのバイオマーカーパネルの開発を行った。
関連論文リスト
- Embedded Multi-label Feature Selection via Orthogonal Regression [45.55795914923279]
少なくとも2乗回帰に基づく最先端の組込みマルチラベル特徴選択アルゴリズムは、マルチラベルデータに十分な識別情報を保存できない。
複数ラベルの特徴選択を容易にするために, 組込み多ラベル特徴選択法を提案する。
10個の多ラベルデータセットの大規模な実験結果から,GRROORの有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T06:18:40Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - A model-free feature selection technique of feature screening and random
forest based recursive feature elimination [0.0]
質量特徴を持つ超高次元データのモデルフリー特徴選択法を提案する。
提案手法は選択整合性を示し, 弱正則条件下では$L$整合性を示す。
論文 参考訳(メタデータ) (2023-02-15T03:39:16Z) - Posterior Collapse and Latent Variable Non-identifiability [54.842098835445]
柔軟性を犠牲にすることなく識別性を強制する深層生成モデルである,潜時同定可能な変分オートエンコーダのクラスを提案する。
合成および実データ全体にわたって、潜在識別可能な変分オートエンコーダは、後方崩壊を緩和し、データの有意義な表現を提供する既存の方法より優れている。
論文 参考訳(メタデータ) (2023-01-02T06:16:56Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - Bayesian Variable Selection in a Million Dimensions [7.366246663367533]
提案手法では, 繰り返し毎のコストが P のサブ線形である効率的な MCMC スキームを導入する。
本稿では,このスキームを一般線形モデルに拡張してカウントデータに適用する方法について述べる。
実験では、癌やトウモロコシゲノムデータを含む方法の有効性を実証した。
論文 参考訳(メタデータ) (2022-08-02T00:11:15Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - A Causal Direction Test for Heterogeneous Populations [10.653162005300608]
ほとんどの因果モデルでは、単一の同質な集団を仮定するが、これは多くの応用において成り立たない仮定である。
等質性仮定に違反した場合、そのような仮定に基づいて開発された因果モデルが正しい因果方向を識別できないことを示す。
我々は,$k$-means型クラスタリングアルゴリズムを用いて,一般的な因果方向検定統計量の調整を提案する。
論文 参考訳(メタデータ) (2020-06-08T18:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。