論文の概要: Fast nonparametric feature selection with error control using integrated path stability selection
- arxiv url: http://arxiv.org/abs/2410.02208v1
- Date: Thu, 3 Oct 2024 04:42:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:06:03.787386
- Title: Fast nonparametric feature selection with error control using integrated path stability selection
- Title(参考訳): 統合経路安定性選択を用いた誤差制御による高速非パラメトリック特徴選択
- Authors: Omar Melikechi, David B. Dunson, Jeffrey W. Miller,
- Abstract要約: 本稿では,経路安定度をしきい値に適用し,偽陽性と偽発見率を制御する一般的な特徴選択法を提案する。
グラデーション・ブースティング(IPSSGB)とランダム・フォレスト(IPSSRF)に基づく一般手法の2つの特別事例に着目した。
RNAシークエンシングデータによる大規模なシミュレーションにより、IPSSGBとIPSSRFはエラー制御が良くなり、より真の陽性を検出し、既存の方法よりも高速であることが示された。
- 参考スコア(独自算出の注目度): 12.608885112539202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection can greatly improve performance and interpretability in machine learning problems. However, existing nonparametric feature selection methods either lack theoretical error control or fail to accurately control errors in practice. Many methods are also slow, especially in high dimensions. In this paper, we introduce a general feature selection method that applies integrated path stability selection to thresholding to control false positives and the false discovery rate. The method also estimates q-values, which are better suited to high-dimensional data than p-values. We focus on two special cases of the general method based on gradient boosting (IPSSGB) and random forests (IPSSRF). Extensive simulations with RNA sequencing data show that IPSSGB and IPSSRF have better error control, detect more true positives, and are faster than existing methods. We also use both methods to detect microRNAs and genes related to ovarian cancer, finding that they make better predictions with fewer features than other methods.
- Abstract(参考訳): 特徴選択は、機械学習問題におけるパフォーマンスと解釈可能性を大幅に向上させる。
しかし、既存の非パラメトリックな特徴選択法は理論上の誤差制御を欠いているか、実際にエラーを正確に制御できないかのいずれかである。
多くの手法も遅く、特に高次元では遅い。
本稿では,疑似肯定と誤発見率を制御するために,積分経路安定性の選択をしきい値に応用する一般的な特徴選択法を提案する。
また、p値よりも高次元データに適したq値も推定する。
本稿では,勾配上昇(IPSSGB)とランダム森林(IPSSRF)に基づく一般手法の2つの特殊な事例に着目した。
RNAシークエンシングデータによる大規模なシミュレーションにより、IPSSGBとIPSSRFはエラー制御が良くなり、より真の陽性を検出し、既存の方法よりも高速であることが示された。
また,マイクロRNAと卵巣癌関連遺伝子を検出する手法も用い,他の方法よりも少ない精度で予測できることがわかった。
関連論文リスト
- Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Integrated path stability selection [5.263910852465186]
本稿では,安定性を最大化するのではなく,安定経路の統合に基づく新しい安定性選択手法を提案する。
これにより、前の境界よりも桁違いに強いE(FP)上の上限が得られ、同じターゲットE(FP)に対して実際よりもはるかに真の正の値が得られる。
本手法は前立腺癌および大腸癌研究のシミュレーションと実データを用いて実証する。
論文 参考訳(メタデータ) (2024-03-23T15:55:52Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Adaptive Selection of the Optimal Strategy to Improve Precision and
Power in Randomized Trials [2.048226951354646]
精度を最大化するために、どの変数とどの形式で調整アプローチを選択するかを示す。
このアプローチは、(nullの下で)Type-Iエラー制御を維持し、精度を大幅に向上させる。
実データに適用すると、全体およびサブグループ内で有意義な効率改善が見られる。
論文 参考訳(メタデータ) (2022-10-31T16:25:38Z) - Asymptotically Unbiased Instance-wise Regularized Partial AUC
Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。
既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。
本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文 参考訳(メタデータ) (2022-10-08T08:26:22Z) - Directional FDR Control for Sub-Gaussian Sparse GLMs [4.229179009157074]
偽発見率(FDR)制御は、統計的に有意にゼロでない結果の少ない数を特定することを目的とする。
偏りのある行列ラッソ推定器を構築し、スパースGLMの最小レートオーラクル不等式による正規性を証明する。
論文 参考訳(メタデータ) (2021-05-02T05:34:32Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Robust Multi-class Feature Selection via $l_{2,0}$-Norm Regularization
Minimization [6.41804410246642]
特徴選択は、データマイニングと機械学習において重要な計算処理である。
本稿では,複数クラスの特徴選択における最小二乗問題の解法として,ホモシーハードしきい値(HIHT)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-08T02:06:06Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。