論文の概要: Subsampling Winner Algorithm for Feature Selection in Large Regression
Data
- arxiv url: http://arxiv.org/abs/2002.02903v1
- Date: Fri, 7 Feb 2020 17:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:00:57.433350
- Title: Subsampling Winner Algorithm for Feature Selection in Large Regression
Data
- Title(参考訳): 大規模回帰データにおける特徴選択のためのサブサンプリング勝者アルゴリズム
- Authors: Yiying Fan and Jiayang Sun
- Abstract要約: SWA(Subsampling Winner Algorithm)は「ファイナリスト」の選択に使用されるアルゴリズムである。
SWAはベンチマークプロシージャとランダムフォレストと比較して、最高の制御された実際のFDRを持っている。
Broad Instituteの卵巣血清性嚢胞腺癌標本に対するSWAの応用により,機能的に重要な遺伝子と経路が明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection from a large number of covariates (aka features) in a
regression analysis remains a challenge in data science, especially in terms of
its potential of scaling to ever-enlarging data and finding a group of
scientifically meaningful features. For example, to develop new, responsive
drug targets for ovarian cancer, the actual false discovery rate (FDR) of a
practical feature selection procedure must also match the target FDR. The
popular approach to feature selection, when true features are sparse, is to use
a penalized likelihood or a shrinkage estimation, such as a LASSO, SCAD,
Elastic Net, or MCP procedure (call them benchmark procedures). We present a
different approach using a new subsampling method, called the Subsampling
Winner algorithm (SWA). The central idea of SWA is analogous to that used for
the selection of US national merit scholars. SWA uses a "base procedure" to
analyze each of the subsamples, computes the scores of all features according
to the performance of each feature from all subsample analyses, obtains the
"semifinalist" based on the resulting scores, and then determines the
"finalists," i.e., the most important features. Due to its subsampling nature,
SWA can scale to data of any dimension in principle. The SWA also has the
best-controlled actual FDR in comparison with the benchmark procedures and the
randomForest, while having a competitive true-feature discovery rate. We also
suggest practical add-on strategies to SWA with or without a penalized
benchmark procedure to further assure the chance of "true" discovery. Our
application of SWA to the ovarian serous cystadenocarcinoma specimens from the
Broad Institute revealed functionally important genes and pathways, which we
verified by additional genomics tools. This second-stage investigation is
essential in the current discussion of the proper use of P-values.
- Abstract(参考訳): 回帰分析における多数の共変量(いわゆる特徴)の特徴選択は、データサイエンスにおける課題であり、特にデータの拡大と科学的に意味のある特徴のグループを見つける可能性においてである。
例えば、卵巣癌に対する新しい応答性薬物標的を開発するには、実用的な特徴選択手順の実際の偽発見率(FDR)もターゲットFDRと一致しなければならない。
機能選択の一般的なアプローチは、真の機能が不足している場合、LASSO、SCAD、Elastic Net、MSPプロシージャ(それらをベンチマーク手順と呼ぶ)のようなペナル化可能性または縮小推定を使用することである。
本稿では,新しいサブサンプリング法であるsubsampling winner algorithm (swa) を用いて,異なる手法を提案する。
SWAの中心的な考え方は、アメリカの国家功労学者の選考に使われたものと類似している。
SWAは、各サブサンプルの分析に"ベースプロシージャ"を使用し、全てのサブサンプル分析から各機能のパフォーマンスに応じて全ての特徴のスコアを計算し、結果のスコアに基づいて「セミファイナリスト」を取得し、次に「ファイナリスト」、すなわち最も重要な特徴を決定する。
サブサンプリングの性質のため、SWAは原則として任意の次元のデータにスケールすることができる。
SWAは、ベンチマークプロシージャやランダムフォレストと比較して最高の制御された実際のFDRを持ち、競合する真の機能発見レートを持っている。
また,「真の」発見の可能性をさらに確保するために,ペナライズされたベンチマーク手順の有無に関わらず,swaに実用的なアドオン戦略を提案する。
Broad Instituteの卵巣血清性嚢胞腺癌標本に対するSWAの応用により,機能的に重要な遺伝子と経路が明らかとなり,追加のゲノミクスツールで検証した。
この第2段階の研究は、P値の適切な使用に関する現在の議論において不可欠である。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - Statistical Inference for Sequential Feature Selection after Domain Adaptation [7.10052009802944]
本稿では,SeqFS-DA が選択した特徴をテストするための新しい手法を提案する。
提案手法の主な利点は、価値レベル$alpha$(例えば0.05)以下の偽陽性率(FPR)を制御する能力である。
提案手法を,AIC,BIC,調整R-squaredを含むモデル選択基準でSeqFSに拡張する。
論文 参考訳(メタデータ) (2025-01-17T03:14:43Z) - A Bio-Medical Snake Optimizer System Driven by Logarithmic Surviving Global Search for Optimizing Feature Selection and its application for Disorder Recognition [1.3755153408022656]
人間の生命を守ることがいかに重要かを考えると、医療実践を強化することが最重要である。
機械学習技術を用いて患者の予測を自動化することで、医療療法を加速することができる。
この分野における重要な任務のために、いくつかの前処理戦略を採用する必要がある。
論文 参考訳(メタデータ) (2024-02-22T09:08:18Z) - Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文 参考訳(メタデータ) (2023-11-21T17:03:21Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文 参考訳(メタデータ) (2021-05-23T11:21:01Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。