論文の概要: Analysis of ensemble feature selection for correlated high-dimensional
RNA-Seq cancer data
- arxiv url: http://arxiv.org/abs/2004.13809v1
- Date: Tue, 28 Apr 2020 20:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:41:32.419460
- Title: Analysis of ensemble feature selection for correlated high-dimensional
RNA-Seq cancer data
- Title(参考訳): 相関した高次元RNA-Seq癌データのアンサンブル特徴選択の解析
- Authors: Aneta Polewko-Klim, Witold R. Rudnicki
- Abstract要約: 本研究は、関連する変数の発見のための2つのアプローチを比較する。
最も有益な特徴は、4つの特徴選択アルゴリズムを用いて識別される。
残念なことに、特徴選択アルゴリズムのアンサンブルから得られた特徴集合に基づいて構築されたモデルは、個々のアルゴリズムから得られた特徴集合に基づいて開発されたモデルよりは良くなかった。
- 参考スコア(独自算出の注目度): 0.24366811507669126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discovery of diagnostic and prognostic molecular markers is important and
actively pursued the research field in cancer research. For complex diseases,
this process is often performed using Machine Learning. The current study
compares two approaches for the discovery of relevant variables: by application
of a single feature selection algorithm, versus by an ensemble of diverse
algorithms. These approaches are used to identify variables that are relevant
discerning of four cancer types using RNA-seq profiles from the Cancer Genome
Atlas. The comparison is carried out in two directions: evaluating the
predictive performance of models and monitoring the stability of selected
variables. The most informative features are identified using a four feature
selection algorithms, namely U-test, ReliefF, and two variants of the MDFS
algorithm. Discerning normal and tumor tissues is performed using the Random
Forest algorithm. The highest stability of the feature set was obtained when
U-test was used. Unfortunately, models built on feature sets obtained from the
ensemble of feature selection algorithms were no better than for models
developed on feature sets obtained from individual algorithms. On the other
hand, the feature selectors leading to the best classification results varied
between data sets.
- Abstract(参考訳): 診断と予後の分子マーカーの発見は重要であり、がん研究の研究分野を積極的に追求している。
複雑な疾患の場合、このプロセスは機械学習を使って行われることが多い。
現在の研究では、単一の特徴選択アルゴリズムを適用することによって、関連する変数を発見するための2つのアプローチを比較している。
これらのアプローチは、癌ゲノムアトラスのRNA-seqプロファイルを用いて、4種類のがんタイプを識別する変数を特定するために使用される。
この比較は,モデルの予測性能の評価と,選択した変数の安定性の監視という2つの方向で行われる。
最も有益な特徴は、4つの特徴選択アルゴリズム(u-test, relieff, and two variants of the mdfs algorithm)を用いて識別される。
正常組織と腫瘍組織を識別するにはランダムフォレストアルゴリズムを用いる。
特徴集合の最も高い安定性は、U-testの使用時に得られた。
残念なことに、特徴選択アルゴリズムのアンサンブルから得られた特徴集合に基づいて構築されたモデルは、個々のアルゴリズムから得られた特徴集合に基づいて開発されたモデルよりは良くなかった。
一方,最良の分類結果につながる特徴セレクタは,データセットによって異なっていた。
関連論文リスト
- Optimal Kernel Choice for Score Function-based Causal Discovery [92.65034439889872]
本稿では,データに最も適合する最適なカーネルを自動的に選択する,一般化スコア関数内のカーネル選択手法を提案する。
合成データと実世界のベンチマークの両方で実験を行い,提案手法がカーネル選択法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-14T09:32:20Z) - Exhaustive Exploitation of Nature-inspired Computation for Cancer Screening in an Ensemble Manner [20.07173196364489]
本研究では、遺伝子発現データからがん分類のためのアンサンブル学習を改善するために、進化最適化逆アンサンブル学習(EODE)と呼ばれるフレームワークを提案する。
各種癌種を含む35の遺伝子発現ベンチマークデータセットを対象に実験を行った。
論文 参考訳(メタデータ) (2024-04-06T08:07:48Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Dual-stage optimizer for systematic overestimation adjustment applied to
multi-objective genetic algorithms for biomarker selection [0.18648070031379424]
特徴選択法を用いたバイオマーカー同定は,特徴数における予測能力とパシモニーのトレードオフを伴う多目的問題として扱うことができる。
提案するDOSA-MOは多目的最適化ラッパーアルゴリズムで,元の推定値,分散度,および解の特徴セットサイズが過大評価を予測する。
論文 参考訳(メタデータ) (2023-12-27T16:13:14Z) - An Application of a Multivariate Estimation of Distribution Algorithm to
Cancer Chemotherapy [59.40521061783166]
癌に対する化学療法治療は、多数の相互作用する変数と制約を持つ複雑な最適化問題である。
より洗練されたアルゴリズムは、このような複雑な問題に対してより良いパフォーマンスをもたらすことが示される。
我々は、この問題における多数の相互作用によって、より洗練されたアルゴリズムが妨げられていることが原因であると仮定する。
論文 参考訳(メタデータ) (2022-05-17T15:28:46Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - A Study of Feature Selection and Extraction Algorithms for Cancer
Subtype Prediction [0.0]
既存の特徴選択法は,個別に適用した場合に計算コストがかかることを示す。
これらのアルゴリズムを逐次適用することにより,計算コストの低減と予測性能の向上に寄与する。
論文 参考訳(メタデータ) (2021-09-29T18:11:24Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - A Novel Community Detection Based Genetic Algorithm for Feature
Selection [3.8848561367220276]
著者らは3つのステップで機能するコミュニティ検出に基づく遺伝的アルゴリズムを提案する。
提案手法の性能から,9つのベンチマーク分類問題を解析した。
論文 参考訳(メタデータ) (2020-08-08T15:39:30Z) - A generalised OMP algorithm for feature selection with application to
gene expression data [1.969028842568933]
分子データに適用するには、機能選択アルゴリズムは数万の利用可能な機能にスケーラブルである必要がある。
本稿では,Orthogonal Matching Pursuit特徴選択アルゴリズムの高度にスケール可能な一般化であるgOMPを提案する。
論文 参考訳(メタデータ) (2020-04-01T08:33:02Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。