論文の概要: Subsampling Winner Algorithm for Feature Selection in Large Regression
Data
- arxiv url: http://arxiv.org/abs/2002.02903v1
- Date: Fri, 7 Feb 2020 17:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:00:57.433350
- Title: Subsampling Winner Algorithm for Feature Selection in Large Regression
Data
- Title(参考訳): 大規模回帰データにおける特徴選択のためのサブサンプリング勝者アルゴリズム
- Authors: Yiying Fan and Jiayang Sun
- Abstract要約: SWA(Subsampling Winner Algorithm)は「ファイナリスト」の選択に使用されるアルゴリズムである。
SWAはベンチマークプロシージャとランダムフォレストと比較して、最高の制御された実際のFDRを持っている。
Broad Instituteの卵巣血清性嚢胞腺癌標本に対するSWAの応用により,機能的に重要な遺伝子と経路が明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection from a large number of covariates (aka features) in a
regression analysis remains a challenge in data science, especially in terms of
its potential of scaling to ever-enlarging data and finding a group of
scientifically meaningful features. For example, to develop new, responsive
drug targets for ovarian cancer, the actual false discovery rate (FDR) of a
practical feature selection procedure must also match the target FDR. The
popular approach to feature selection, when true features are sparse, is to use
a penalized likelihood or a shrinkage estimation, such as a LASSO, SCAD,
Elastic Net, or MCP procedure (call them benchmark procedures). We present a
different approach using a new subsampling method, called the Subsampling
Winner algorithm (SWA). The central idea of SWA is analogous to that used for
the selection of US national merit scholars. SWA uses a "base procedure" to
analyze each of the subsamples, computes the scores of all features according
to the performance of each feature from all subsample analyses, obtains the
"semifinalist" based on the resulting scores, and then determines the
"finalists," i.e., the most important features. Due to its subsampling nature,
SWA can scale to data of any dimension in principle. The SWA also has the
best-controlled actual FDR in comparison with the benchmark procedures and the
randomForest, while having a competitive true-feature discovery rate. We also
suggest practical add-on strategies to SWA with or without a penalized
benchmark procedure to further assure the chance of "true" discovery. Our
application of SWA to the ovarian serous cystadenocarcinoma specimens from the
Broad Institute revealed functionally important genes and pathways, which we
verified by additional genomics tools. This second-stage investigation is
essential in the current discussion of the proper use of P-values.
- Abstract(参考訳): 回帰分析における多数の共変量(いわゆる特徴)の特徴選択は、データサイエンスにおける課題であり、特にデータの拡大と科学的に意味のある特徴のグループを見つける可能性においてである。
例えば、卵巣癌に対する新しい応答性薬物標的を開発するには、実用的な特徴選択手順の実際の偽発見率(FDR)もターゲットFDRと一致しなければならない。
機能選択の一般的なアプローチは、真の機能が不足している場合、LASSO、SCAD、Elastic Net、MSPプロシージャ(それらをベンチマーク手順と呼ぶ)のようなペナル化可能性または縮小推定を使用することである。
本稿では,新しいサブサンプリング法であるsubsampling winner algorithm (swa) を用いて,異なる手法を提案する。
SWAの中心的な考え方は、アメリカの国家功労学者の選考に使われたものと類似している。
SWAは、各サブサンプルの分析に"ベースプロシージャ"を使用し、全てのサブサンプル分析から各機能のパフォーマンスに応じて全ての特徴のスコアを計算し、結果のスコアに基づいて「セミファイナリスト」を取得し、次に「ファイナリスト」、すなわち最も重要な特徴を決定する。
サブサンプリングの性質のため、SWAは原則として任意の次元のデータにスケールすることができる。
SWAは、ベンチマークプロシージャやランダムフォレストと比較して最高の制御された実際のFDRを持ち、競合する真の機能発見レートを持っている。
また,「真の」発見の可能性をさらに確保するために,ペナライズされたベンチマーク手順の有無に関わらず,swaに実用的なアドオン戦略を提案する。
Broad Instituteの卵巣血清性嚢胞腺癌標本に対するSWAの応用により,機能的に重要な遺伝子と経路が明らかとなり,追加のゲノミクスツールで検証した。
この第2段階の研究は、P値の適切な使用に関する現在の議論において不可欠である。
関連論文リスト
- A Bio-Medical Snake Optimizer System Driven by Logarithmic Surviving Global Search for Optimizing Feature Selection and its application for Disorder Recognition [1.3755153408022656]
人間の生命を守ることがいかに重要かを考えると、医療実践を強化することが最重要である。
機械学習技術を用いて患者の予測を自動化することで、医療療法を加速することができる。
この分野における重要な任務のために、いくつかの前処理戦略を採用する必要がある。
論文 参考訳(メタデータ) (2024-02-22T09:08:18Z) - Provably Stable Feature Rankings with SHAP and LIME [3.8642937395065124]
最も重要な特徴を高い確率で正しくランク付けする属性法を考案する。
SHAP と LIME の効率的なサンプリングアルゴリズムを導入し,K$ の高階特徴が適切に順序付け可能であることを保証した。
論文 参考訳(メタデータ) (2024-01-28T23:14:51Z) - Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。
それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。
実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文 参考訳(メタデータ) (2023-11-21T17:03:21Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - GOALS: Gradient-Only Approximations for Line Searches Towards Robust and
Consistent Training of Deep Neural Networks [0.0]
ミニバッチサブサンプリング(MBSS)は、計算コストを削減するために、ディープニューラルネットワークトレーニングで好まれる。
最適性基準が定義された強い収束特性を持つ勾配限定近似線探索(GOALS)を提案する。
論文 参考訳(メタデータ) (2021-05-23T11:21:01Z) - Stochastic Optimization of Areas Under Precision-Recall Curves with
Provable Convergence [66.83161885378192]
ROC(AUROC)と精度リコール曲線(AUPRC)の下の領域は、不均衡問題に対する分類性能を評価するための一般的な指標である。
本稿では,深層学習のためのAUPRCの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:22:21Z) - Elastic Net based Feature Ranking and Selection [9.289190508925875]
直感的なアイデアは、データ分割と弾性ネットベースの機能選択の複数回の終わりに置かれます。
選択された特徴の頻度に関係し、特徴の重要性を示す指標として周波数を使用する。
elastic netとの競争力や優れたパフォーマンスを実現し、より少ない機能の一貫した選択を実現します。
論文 参考訳(メタデータ) (2020-12-30T00:08:36Z) - Learning a Unified Sample Weighting Network for Object Detection [113.98404690619982]
地域サンプリングや重み付けは、現代の地域ベースの物体検出器の成功に極めて重要である。
サンプル重み付けはデータ依存でタスク依存であるべきだと我々は主張する。
サンプルのタスク重みを予測するための統一的なサンプル重み付けネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-11T16:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。