論文の概要: A generalised OMP algorithm for feature selection with application to
gene expression data
- arxiv url: http://arxiv.org/abs/2004.00281v1
- Date: Wed, 1 Apr 2020 08:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 18:18:08.341046
- Title: A generalised OMP algorithm for feature selection with application to
gene expression data
- Title(参考訳): 特徴選択のための一般化OMPアルゴリズムと遺伝子発現データへの応用
- Authors: Michail Tsagris, Zacharias Papadovasilakis, Kleanthi Lakiotaki and
Ioannis Tsamardinos
- Abstract要約: 分子データに適用するには、機能選択アルゴリズムは数万の利用可能な機能にスケーラブルである必要がある。
本稿では,Orthogonal Matching Pursuit特徴選択アルゴリズムの高度にスケール可能な一般化であるgOMPを提案する。
- 参考スコア(独自算出の注目度): 1.969028842568933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection for predictive analytics is the problem of identifying a
minimal-size subset of features that is maximally predictive of an outcome of
interest. To apply to molecular data, feature selection algorithms need to be
scalable to tens of thousands of available features. In this paper, we propose
gOMP, a highly-scalable generalisation of the Orthogonal Matching Pursuit
feature selection algorithm to several directions: (a) different types of
outcomes, such as continuous, binary, nominal, and time-to-event, (b) different
types of predictive models (e.g., linear least squares, logistic regression),
(c) different types of predictive features (continuous, categorical), and (d)
different, statistical-based stopping criteria. We compare the proposed
algorithm against LASSO, a prototypical, widely used algorithm for
high-dimensional data. On dozens of simulated datasets, as well as, real gene
expression datasets, gOMP is on par, or outperforms LASSO for case-control
binary classification, quantified outcomes (regression), and (censored)
survival times (time-to-event) analysis. gOMP has also several theoretical
advantages that are discussed. While gOMP is based on quite simple and basic
statistical ideas, easy to implement and to generalize, we also show in an
extensive evaluation that it is also quite effective in bioinformatics analysis
settings.
- Abstract(参考訳): 予測分析のための機能選択は、関心のある結果の最大予測となる機能の最小サイズのサブセットを特定する問題である。
分子データに適用するには、機能選択アルゴリズムを数万の機能にスケーラブルにする必要がある。
本稿では,複数方向の直交マッチング型特徴選択アルゴリズムの高スケール化であるgOMPを提案する。
(a)連続性、二項性、名目性、時間と時間などの異なる種類の結果
(b)異なる種類の予測モデル(例えば、線形最小二乗、ロジスティック回帰)
(c)異なる種類の予測的特徴(連続的、カテゴリー的)、及び
(d)異なる統計に基づく停止基準。
提案アルゴリズムを,高次元データに対して広範に使用されるアルゴリズムであるlassoと比較する。
多数のシミュレーションデータセット、および実際の遺伝子発現データセットでは、gOMPは、ケースコントロールバイナリ分類、定量化結果(回帰)、および(検閲された)生存時間(時間からイベント)分析においてLASSOより優れている。
gompには理論上の利点もいくつかある。
gOMPは、非常に単純で基本的な統計的概念に基づいており、実装や一般化が容易であるが、バイオインフォマティクス解析の設定にも非常に有効であることを示す。
関連論文リスト
- Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Dual-stage optimizer for systematic overestimation adjustment applied to
multi-objective genetic algorithms for biomarker selection [0.18648070031379424]
特徴選択法を用いたバイオマーカー同定は,特徴数における予測能力とパシモニーのトレードオフを伴う多目的問題として扱うことができる。
提案するDOSA-MOは多目的最適化ラッパーアルゴリズムで,元の推定値,分散度,および解の特徴セットサイズが過大評価を予測する。
論文 参考訳(メタデータ) (2023-12-27T16:13:14Z) - Gram-Schmidt Methods for Unsupervised Feature Extraction and Selection [7.373617024876725]
本稿では,関数空間上のGram-Schmidtプロセスを提案する。
合成および実世界のベンチマークデータセットに対する実験結果を提供する。
驚いたことに、線形特徴抽出アルゴリズムは同等であり、しばしば重要な非線形特徴抽出法よりも優れている。
論文 参考訳(メタデータ) (2023-11-15T21:29:57Z) - Best-Subset Selection in Generalized Linear Models: A Fast and
Consistent Algorithm via Splicing Technique [0.6338047104436422]
ベストサブセットセクションは、このタイプの問題の聖杯として広く見なされている。
軽度条件下での最適部分集合回復のためのアルゴリズムを提案し,提案した。
我々の実装は、一般的な変数選択ツールキットと比較して約4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2023-08-01T03:11:31Z) - Flexible variable selection in the presence of missing data [0.0]
本稿では,非パラメトリックな変数選択アルゴリズムと多重計算を組み合わせることで,非ランダムなデータが存在する場合のフレキシブルなパネルの開発を行う。
提案手法の動作特性は良好であり,より高い分類性能と可変選択性能を有するパネルが得られた。
論文 参考訳(メタデータ) (2022-02-25T21:41:03Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。