論文の概要: Flexible variable selection in the presence of missing data
- arxiv url: http://arxiv.org/abs/2202.12989v1
- Date: Fri, 25 Feb 2022 21:41:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 17:12:46.517861
- Title: Flexible variable selection in the presence of missing data
- Title(参考訳): 欠落データの存在下でのフレキシブルな変数選択
- Authors: B. D. Williamson and Y. Huang
- Abstract要約: 本稿では,非パラメトリックな変数選択アルゴリズムと多重計算を組み合わせることで,非ランダムなデータが存在する場合のフレキシブルなパネルを開発する。
提案手法の動作特性は良好であり,既存のペナル化回帰手法と比較して高い分類性能を有するパネルが得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many applications, it is of interest to identify a parsimonious set of
features, or panel, from multiple candidates that achieves a desired level of
performance in predicting a response. This task is often complicated in
practice by missing data arising from the sampling design or other random
mechanisms. Most recent work on variable selection in missing data contexts
relies in some part on a finite-dimensional statistical model (e.g., a
generalized or penalized linear model). In cases where this model is
misspecified, the selected variables may not all be truly scientifically
relevant and can result in panels with suboptimal classification performance.
To address this limitation, we propose several nonparametric variable selection
algorithms combined with multiple imputation to develop flexible panels in the
presence of missing-at-random data. We outline strategies based on the proposed
algorithms that achieve control of commonly used error rates. Through
simulations, we show that our proposals have good operating characteristics and
result in panels with higher classification performance compared to several
existing penalized regression approaches. Finally, we use the proposed methods
to develop biomarker panels for separating pancreatic cysts with differing
malignancy potential in a setting where complicated missingness in the
biomarkers arose due to limited specimen volumes.
- Abstract(参考訳): 多くのアプリケーションにおいて、応答を予測する上で望ましいレベルのパフォーマンスを達成する複数の候補から、同種の機能セット、またはパネルを特定することが関心がある。
このタスクは、サンプリング設計やその他のランダムなメカニズムから生じるデータの欠如によって、しばしば複雑になる。
欠落したデータ文脈における変数選択に関する最近の研究は、有限次元統計モデル(例えば、一般化またはペナル化線形モデル)に依存している。
このモデルが不特定化されている場合、選択された変数は必ずしも科学的に関連づけられず、サブ最適分類性能を持つパネルとなる可能性がある。
この制限に対処するために、複数の非パラメトリック変数選択アルゴリズムと複数のインプットを組み合わせることで、非ランダムデータの存在下でフレキシブルなパネルを開発する。
提案手法は,一般的な誤り率の制御を行うアルゴリズムに基づく戦略を概説する。
シミュレーションにより,提案手法の動作特性は良好であり,既存のペナル化回帰手法と比較して高い分類性能を有するパネルが得られた。
最後に, 検体数が少ないため, 複雑なバイオマーカーの欠如が生じた症例において, 膵嚢胞を異なる悪性度で分離するためのバイオマーカーパネルの開発を行った。
関連論文リスト
- Plug-and-Play Controllable Generation for Discrete Masked Models [27.416952690340903]
本稿では、離散データ制御可能な生成モデリングのための離散マスクモデルについて述べる。
本稿では,条件付きスコアのトレーニングを回避した重要サンプリングに基づく新しいプラグアンドプレイフレームワークを提案する。
本フレームワークは,制御基準の選択に非依存であり,勾配情報を必要としないため,後方サンプリングやベイズ逆問題,制約生成などのタスクに適している。
論文 参考訳(メタデータ) (2024-10-03T02:00:40Z) - Embedded Multi-label Feature Selection via Orthogonal Regression [45.55795914923279]
少なくとも2乗回帰に基づく最先端の組込みマルチラベル特徴選択アルゴリズムは、マルチラベルデータに十分な識別情報を保存できない。
複数ラベルの特徴選択を容易にするために, 組込み多ラベル特徴選択法を提案する。
10個の多ラベルデータセットの大規模な実験結果から,GRROORの有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T06:18:40Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - A model-free feature selection technique of feature screening and random
forest based recursive feature elimination [0.0]
質量特徴を持つ超高次元データのモデルフリー特徴選択法を提案する。
提案手法は選択整合性を示し, 弱正則条件下では$L$整合性を示す。
論文 参考訳(メタデータ) (2023-02-15T03:39:16Z) - Posterior Collapse and Latent Variable Non-identifiability [54.842098835445]
柔軟性を犠牲にすることなく識別性を強制する深層生成モデルである,潜時同定可能な変分オートエンコーダのクラスを提案する。
合成および実データ全体にわたって、潜在識別可能な変分オートエンコーダは、後方崩壊を緩和し、データの有意義な表現を提供する既存の方法より優れている。
論文 参考訳(メタデータ) (2023-01-02T06:16:56Z) - Composite Feature Selection using Deep Ensembles [130.72015919510605]
本研究では,事前定義されたグループ化を伴わない予測的特徴群発見の問題について検討する。
本稿では,特徴選択モデルのアンサンブルを用いて予測グループを探索する,新しいディープラーニングアーキテクチャを提案する。
発見群と基底真理の類似性を測定するための新しい尺度を提案する。
論文 参考訳(メタデータ) (2022-11-01T17:49:40Z) - Bayesian Variable Selection in a Million Dimensions [7.366246663367533]
提案手法では, 繰り返し毎のコストが P のサブ線形である効率的な MCMC スキームを導入する。
本稿では,このスキームを一般線形モデルに拡張してカウントデータに適用する方法について述べる。
実験では、癌やトウモロコシゲノムデータを含む方法の有効性を実証した。
論文 参考訳(メタデータ) (2022-08-02T00:11:15Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。