Fugu-MT 論文翻訳(概要): Nonparametric IPSS: Fast, flexible feature selection with false discovery control

論文の概要: Nonparametric IPSS: Fast, flexible feature selection with false discovery control

arxiv url: http://arxiv.org/abs/2410.02208v2
Date: Tue, 06 May 2025 14:02:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-07 18:50:10.94817
Title: Nonparametric IPSS: Fast, flexible feature selection with false discovery control
Title（参考訳）: 非パラメトリックIPSS: 偽発見制御による高速で柔軟な特徴選択
Authors: Omar Melikechi, David B. Dunson, Jeffrey W. Miller,
Abstract要約: 本稿では、任意の特徴重要点にIPSS(Integrated path stability selection)を適用し、有限サンプル偽発見制御を用いた一般的な特徴選択法を提案する。両手法が偽発見率を正確に制御し,既存手法よりも真正を検出できることを示す。我々はIPSSGBとIPSSRFを用いて、がんに関連するマイクロRNAや遺伝子を検出し、既存のアプローチよりも少ない特徴でより良い予測が得られることを発見した。
参考スコア（独自算出の注目度）: 12.608885112539202
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Feature selection is a critical task in machine learning and statistics. However, existing feature selection methods either (i) rely on parametric methods such as linear or generalized linear models, (ii) lack theoretical false discovery control, or (iii) identify few true positives. Here, we introduce a general feature selection method with finite-sample false discovery control based on applying integrated path stability selection (IPSS) to arbitrary feature importance scores. The method is nonparametric whenever the importance scores are nonparametric, and it estimates q-values, which are better suited to high-dimensional data than p-values. We focus on two special cases using importance scores from gradient boosting (IPSSGB) and random forests (IPSSRF). Extensive nonlinear simulations with RNA sequencing data show that both methods accurately control the false discovery rate and detect more true positives than existing methods. Both methods are also efficient, running in under 20 seconds when there are 500 samples and 5000 features. We apply IPSSGB and IPSSRF to detect microRNAs and genes related to cancer, finding that they yield better predictions with fewer features than existing approaches.
Abstract（参考訳）: 特徴の選択は、機械学習と統計学において重要なタスクである。しかし、既存の特徴選択法もそうである。 (i)線形あるいは一般化線形モデルのようなパラメトリックな方法に依存する。二理論的偽発見の制御がないこと、又は (三)正の数は少ない。本稿では、任意の特徴重要点にIPSS(Integrated path stability selection)を適用し、有限サンプル偽発見制御を用いた一般的な特徴選択法を提案する。この方法は、重要スコアが非パラメトリックであるときに非パラメトリックであり、p値よりも高次元データに適しているq値を推定する。本研究は、勾配上昇(IPSSGB)とランダム森林(IPSSRF)の重要点を用いた2つの特別事例に焦点を当てた。 RNAシークエンシングデータによる広範囲な非線形シミュレーションにより、どちらの手法も偽発見率を正確に制御し、既存の方法よりも真の正を検出することを示した。どちらのメソッドも効率的で、500のサンプルと5000の機能がある場合、20秒以内で実行される。我々はIPSSGBとIPSSRFを用いて、がんに関連するマイクロRNAや遺伝子を検出し、既存のアプローチよりも少ない特徴でより良い予測が得られることを発見した。

関連論文リスト

Optimality and Adaptivity of Deep Neural Features for Instrumental Variable Regression [57.40108516085593]
ディープ・フィーチャー・インスツルメンタル・変数(DFIV)回帰(Deep Feature instrumental variable)は、ディープ・ニューラルネットワークによって学習されたデータ適応的特徴を用いたIV回帰に対する非パラメトリックなアプローチである。 DFIVアルゴリズムは,目的構造関数がベソフ空間にある場合,最小最適学習率を実現する。
論文参考訳（メタデータ） (2025-01-09T01:22:22Z)
Reproduction of scan B-statistic for kernel change-point detection algorithm [10.49860279555873]
変化点検出は、幅広い応用のために大きな注目を集めている。本稿では,カーネルベースの効率的なスキャンB統計に基づくオンライン変更点検出アルゴリズムを最近提案した。数値実験により, 走査型B統計が常に優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-08-23T15:12:31Z)
Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文参考訳（メタデータ） (2024-07-20T12:42:24Z)
Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文参考訳（メタデータ） (2024-06-17T12:24:45Z)
Integrated path stability selection [5.263910852465186]
本稿では,安定性を最大化するのではなく,安定経路の統合に基づく新しい安定性選択手法を提案する。これにより、前の境界よりも桁違いに強いE(FP)上の上限が得られ、同じターゲットE(FP)に対して実際よりもはるかに真の正の値が得られる。本手法は前立腺癌および大腸癌研究のシミュレーションと実データを用いて実証する。
論文参考訳（メタデータ） (2024-03-23T15:55:52Z)
Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文参考訳（メタデータ） (2023-12-04T16:49:43Z)
Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。 FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文参考訳（メタデータ） (2023-09-29T15:50:14Z)
Instance-based Learning with Prototype Reduction for Real-Time Proportional Myocontrol: A Randomized User Study Demonstrating Accuracy-preserving Data Reduction for Prosthetic Embedded Systems [0.0]
本研究は, 義肢制御におけるジェスチャー検出のためのkNNスキームに基づく学習手法の設計, 実装, 検証を行う。 8チャンネルSEMGアームバンドを用いて,パラメータ化と比例スキームの変化の影響を解析した。
論文参考訳（メタデータ） (2023-08-21T20:15:35Z)
Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-08T07:05:36Z)
Adaptive Selection of the Optimal Strategy to Improve Precision and Power in Randomized Trials [2.048226951354646]
精度を最大化するために、どの変数とどの形式で調整アプローチを選択するかを示す。このアプローチは、(nullの下で)Type-Iエラー制御を維持し、精度を大幅に向上させる。実データに適用すると、全体およびサブグループ内で有意義な効率改善が見られる。
論文参考訳（メタデータ） (2022-10-31T16:25:38Z)
Asymptotically Unbiased Instance-wise Regularized Partial AUC Optimization: Theory and Algorithm [101.44676036551537]
One-way partial AUC (OPAUC) と Two-way partial AUC (TPAUC) はバイナリ分類器の平均性能を測定する。既存の手法のほとんどはPAUCをほぼ最適化するしかなく、制御不能なバイアスにつながる。本稿では,分散ロバスト最適化AUCによるPAUC問題の簡易化について述べる。
論文参考訳（メタデータ） (2022-10-08T08:26:22Z)
Nonparametric Empirical Bayes Estimation and Testing for Sparse and Heteroscedastic Signals [5.715675926089834]
大規模な現代データは、しばしば高次元未知パラメータの推定とテストを伴う。粗い信号、干し草の巣の針を精度と誤検出制御で識別することが望ましい。本稿では,SNP(Spyke-and-Nonparametric mixture prior)を提案する。
論文参考訳（メタデータ） (2021-06-16T15:55:44Z)
A concise method for feature selection via normalized frequencies [0.0]
本稿では,普遍的特徴選択のための簡潔な手法を提案する。提案手法は, フィルタ法とラッパー法を融合して行う。評価結果から,提案手法は,精度,精度,リコール,Fスコア,AUCの点で,いくつかの最先端技術に優れた性能を示した。
論文参考訳（メタデータ） (2021-06-10T15:29:54Z)
Directional FDR Control for Sub-Gaussian Sparse GLMs [4.229179009157074]
偽発見率(FDR)制御は、統計的に有意にゼロでない結果の少ない数を特定することを目的とする。偏りのある行列ラッソ推定器を構築し、スパースGLMの最小レートオーラクル不等式による正規性を証明する。
論文参考訳（メタデータ） (2021-05-02T05:34:32Z)
Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文参考訳（メタデータ） (2021-04-09T14:50:59Z)
Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文参考訳（メタデータ） (2020-12-29T04:08:38Z)
A Novel Approach to Radiometric Identification [68.8204255655161]
本稿では,CAPoNeFの特徴工学的手法を用いて,高精度なラジオメトリック同定が可能であることを実証する。 SDRで収集した実験データに基づいて,基本的なML分類アルゴリズムを検証した。
論文参考訳（メタデータ） (2020-12-02T10:54:44Z)
Robust Multi-class Feature Selection via $l_{2,0}$-Norm Regularization Minimization [6.41804410246642]
特徴選択は、データマイニングと機械学習において重要な計算処理である。本稿では,複数クラスの特徴選択における最小二乗問題の解法として,ホモシーハードしきい値(HIHT)に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2020-10-08T02:06:06Z)
On Matched Filtering for Statistical Change Point Detection [13.64446865914411]
非パラメトリックランダム性と分布自由な2サンプルテストは多くの変更点検出アルゴリズムの基礎となっている。本稿では,変化の時間的シグネチャにマッチするフィルタを導出し,適用することにより,これらの課題に対処する。提案手法は, アドホック後処理を使わずに, 変更点の局所化を可能にする。
論文参考訳（メタデータ） (2020-06-09T22:45:58Z)
Implicit differentiation of Lasso-type models for hyperparameter optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。提案手法は,解の空間性を利用して高次元データにスケールする。
論文参考訳（メタデータ） (2020-02-20T18:43:42Z)
Robust Learning Rate Selection for Stochastic Optimization via Splitting Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。基本的には標準のSGDよりも計算コストがかかるわけではない。
論文参考訳（メタデータ） (2019-10-18T19:38:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。