論文の概要: Utilizing stability criteria in choosing feature selection methods
yields reproducible results in microbiome data
- arxiv url: http://arxiv.org/abs/2012.00001v1
- Date: Mon, 30 Nov 2020 22:23:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 16:50:24.479113
- Title: Utilizing stability criteria in choosing feature selection methods
yields reproducible results in microbiome data
- Title(参考訳): 特徴選択法の選択における安定性基準の利用による微生物データの再現性向上
- Authors: Lingjing Jiang, Niina Haiminen, Anna-Paola Carrieri, Shi Huang,
Yoshiki Vazquez-Baeza, Laxmi Parida, Ho-Cheol Kim, Austin D. Swafford, Rob
Knight, Loki Natarajan
- Abstract要約: 一般的なモデル予測指標MSEの性能と4つの広く使われている特徴選択法の評価における基準安定度の比較を行った。
MSEよりも安定度が望ましい特徴選択基準であると結論付け,特徴選択法の性能を定量的に評価する。
- 参考スコア(独自算出の注目度): 0.9345224141195311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feature selection is indispensable in microbiome data analysis, but it can be
particularly challenging as microbiome data sets are high-dimensional,
underdetermined, sparse and compositional. Great efforts have recently been
made on developing new methods for feature selection that handle the above data
characteristics, but almost all methods were evaluated based on performance of
model predictions. However, little attention has been paid to address a
fundamental question: how appropriate are those evaluation criteria? Most
feature selection methods often control the model fit, but the ability to
identify meaningful subsets of features cannot be evaluated simply based on the
prediction accuracy. If tiny changes to the training data would lead to large
changes in the chosen feature subset, then many of the biological features that
an algorithm has found are likely to be a data artifact rather than real
biological signal. This crucial need of identifying relevant and reproducible
features motivated the reproducibility evaluation criterion such as Stability,
which quantifies how robust a method is to perturbations in the data. In our
paper, we compare the performance of popular model prediction metric MSE and
proposed reproducibility criterion Stability in evaluating four widely used
feature selection methods in both simulations and experimental microbiome
applications. We conclude that Stability is a preferred feature selection
criterion over MSE because it better quantifies the reproducibility of the
feature selection method.
- Abstract(参考訳): マイクロバイオームデータ分析には特徴選択が不可欠であるが, マイクロバイオームのデータセットは高次元, 過小評価, スパース, 構成的であるため, 特に困難である。
近年,上記のデータ特性に対処する特徴選択手法の開発が盛んに行われているが,ほぼすべての手法がモデル予測の性能に基づいて評価されている。
しかし、その評価基準がどの程度適切かという根本的な疑問に答えるためにはほとんど注意が払われていない。
ほとんどの特徴選択法はモデル適合性を制御するが、特徴の有意義な部分集合を識別する能力は単に予測精度に基づいて評価することはできない。
トレーニングデータの小さな変更が選択した機能サブセットに大きな変化をもたらす場合、アルゴリズムが発見した生物学的特徴の多くは、実際の生物学的信号ではなく、データアーティファクトである可能性が高い。
この重要かつ再現可能な特徴を特定する必要性は、データの摂動に対するメソッドの頑健さを定量化する安定性などの再現性評価基準を導いた。
本稿では,汎用モデル予測指標mseの性能と再現性基準の安定性を比較し,シミュレーションおよび実験的マイクロバイオーム応用における4つの特徴選択手法の評価を行った。
MSEよりも安定度が望ましい特徴選択基準であると結論付け,特徴選択法の再現性をよりよく評価する。
関連論文リスト
- Detecting and Identifying Selection Structure in Sequential Data [53.24493902162797]
我々は,音楽のシーケンスなどの実践的な状況において,潜在目的に基づくデータポイントの選択的包摂が一般的である,と論じる。
選択構造はパラメトリックな仮定や介入実験なしで識別可能であることを示す。
また、他の種類の依存関係と同様に、選択構造を検知し、識別するための証明可能な正当性アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-29T20:56:34Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Loss-guided Stability Selection [0.0]
LassoやBoostingのようなモデル選択手順は、実際のデータに過度に適合する傾向があることはよく知られている。
標準安定選択は、グローバルな基準、すなわち家族ごとのエラー率に基づいている。
選択された損失関数を付加的な検証ステップで尊重する安定性選択変種を提案する。
論文 参考訳(メタデータ) (2022-02-10T11:20:25Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Filter Methods for Feature Selection in Supervised Machine Learning
Applications -- Review and Benchmark [0.0]
本稿では,特徴選択ベンチマークに関する文献を合成し,広く使用されているR環境における58の手法の性能評価を行う。
MLモデルでは難しい4つの典型的なデータセットシナリオについて検討する。
論文 参考訳(メタデータ) (2021-11-23T20:20:24Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Leveraging Model Inherent Variable Importance for Stable Online Feature
Selection [16.396739487911056]
本稿では,オンライン機能選択のための新しいフレームワークFIRESを紹介する。
私たちのフレームワークは、基盤となるモデルの選択をユーザに委ねるという点で一般的です。
実験の結果,提案フレームワークは特徴選択安定性の点で明らかに優れていることがわかった。
論文 参考訳(メタデータ) (2020-06-18T10:01:18Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。