論文の概要: Nonparametric IPSS: Fast, flexible feature selection with false discovery control
- arxiv url: http://arxiv.org/abs/2410.02208v2
- Date: Tue, 06 May 2025 14:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:10.94817
- Title: Nonparametric IPSS: Fast, flexible feature selection with false discovery control
- Title(参考訳): 非パラメトリックIPSS: 偽発見制御による高速で柔軟な特徴選択
- Authors: Omar Melikechi, David B. Dunson, Jeffrey W. Miller,
- Abstract要約: 本稿では、任意の特徴重要点にIPSS(Integrated path stability selection)を適用し、有限サンプル偽発見制御を用いた一般的な特徴選択法を提案する。
両手法が偽発見率を正確に制御し,既存手法よりも真正を検出できることを示す。
我々はIPSSGBとIPSSRFを用いて、がんに関連するマイクロRNAや遺伝子を検出し、既存のアプローチよりも少ない特徴でより良い予測が得られることを発見した。
- 参考スコア(独自算出の注目度): 12.608885112539202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection is a critical task in machine learning and statistics. However, existing feature selection methods either (i) rely on parametric methods such as linear or generalized linear models, (ii) lack theoretical false discovery control, or (iii) identify few true positives. Here, we introduce a general feature selection method with finite-sample false discovery control based on applying integrated path stability selection (IPSS) to arbitrary feature importance scores. The method is nonparametric whenever the importance scores are nonparametric, and it estimates q-values, which are better suited to high-dimensional data than p-values. We focus on two special cases using importance scores from gradient boosting (IPSSGB) and random forests (IPSSRF). Extensive nonlinear simulations with RNA sequencing data show that both methods accurately control the false discovery rate and detect more true positives than existing methods. Both methods are also efficient, running in under 20 seconds when there are 500 samples and 5000 features. We apply IPSSGB and IPSSRF to detect microRNAs and genes related to cancer, finding that they yield better predictions with fewer features than existing approaches.
- Abstract(参考訳): 特徴の選択は、機械学習と統計学において重要なタスクである。
しかし、既存の特徴選択法もそうである。
(i)線形あるいは一般化線形モデルのようなパラメトリックな方法に依存する。
二 理論的偽発見の制御がないこと、又は
(三)正の数は少ない。
本稿では、任意の特徴重要点にIPSS(Integrated path stability selection)を適用し、有限サンプル偽発見制御を用いた一般的な特徴選択法を提案する。
この方法は、重要スコアが非パラメトリックであるときに非パラメトリックであり、p値よりも高次元データに適しているq値を推定する。
本研究は、勾配上昇(IPSSGB)とランダム森林(IPSSRF)の重要点を用いた2つの特別事例に焦点を当てた。
RNAシークエンシングデータによる広範囲な非線形シミュレーションにより、どちらの手法も偽発見率を正確に制御し、既存の方法よりも真の正を検出することを示した。
どちらのメソッドも効率的で、500のサンプルと5000の機能がある場合、20秒以内で実行される。
我々はIPSSGBとIPSSRFを用いて、がんに関連するマイクロRNAや遺伝子を検出し、既存のアプローチよりも少ない特徴でより良い予測が得られることを発見した。
関連論文リスト
- Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Integrated path stability selection [5.263910852465186]
本稿では,安定性を最大化するのではなく,安定経路の統合に基づく新しい安定性選択手法を提案する。
これにより、前の境界よりも桁違いに強いE(FP)上の上限が得られ、同じターゲットE(FP)に対して実際よりもはるかに真の正の値が得られる。
本手法は前立腺癌および大腸癌研究のシミュレーションと実データを用いて実証する。
論文 参考訳(メタデータ) (2024-03-23T15:55:52Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Adaptive Selection of the Optimal Strategy to Improve Precision and
Power in Randomized Trials [2.048226951354646]
精度を最大化するために、どの変数とどの形式で調整アプローチを選択するかを示す。
このアプローチは、(nullの下で)Type-Iエラー制御を維持し、精度を大幅に向上させる。
実データに適用すると、全体およびサブグループ内で有意義な効率改善が見られる。
論文 参考訳(メタデータ) (2022-10-31T16:25:38Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Directional FDR Control for Sub-Gaussian Sparse GLMs [4.229179009157074]
偽発見率(FDR)制御は、統計的に有意にゼロでない結果の少ない数を特定することを目的とする。
偏りのある行列ラッソ推定器を構築し、スパースGLMの最小レートオーラクル不等式による正規性を証明する。
論文 参考訳(メタデータ) (2021-05-02T05:34:32Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Robust Multi-class Feature Selection via $l_{2,0}$-Norm Regularization
Minimization [6.41804410246642]
特徴選択は、データマイニングと機械学習において重要な計算処理である。
本稿では,複数クラスの特徴選択における最小二乗問題の解法として,ホモシーハードしきい値(HIHT)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-08T02:06:06Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。