論文の概要: Large-scale benchmark study of survival prediction methods using
multi-omics data
- arxiv url: http://arxiv.org/abs/2003.03621v1
- Date: Sat, 7 Mar 2020 18:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 19:30:04.357722
- Title: Large-scale benchmark study of survival prediction methods using
multi-omics data
- Title(参考訳): マルチオミクスデータを用いた生存予測手法の大規模ベンチマーク研究
- Authors: Moritz Herrmann, Philipp Probst, Roman Hornung, Vindi Jurinovic,
Anne-Laure Boulesteix
- Abstract要約: 生存時間などの疾患結果の予測には,マルチオミクスデータの有用性が疑問視されている。
我々は,実データを用いた大規模ベンチマーク研究により,いくつかの回答を提供することを目指している。
- 参考スコア(独自算出の注目度): 2.204918347869259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-omics data, that is, datasets containing different types of
high-dimensional molecular variables (often in addition to classical clinical
variables), are increasingly generated for the investigation of various
diseases. Nevertheless, questions remain regarding the usefulness of
multi-omics data for the prediction of disease outcomes such as survival time.
It is also unclear which methods are most appropriate to derive such prediction
models. We aim to give some answers to these questions by means of a
large-scale benchmark study using real data. Different prediction methods from
machine learning and statistics were applied on 18 multi-omics cancer datasets
from the database "The Cancer Genome Atlas", containing from 35 to 1,000
observations and from 60,000 to 100,000 variables. The considered outcome was
the (censored) survival time. Twelve methods based on boosting, penalized
regression and random forest were compared, comprising both methods that do and
that do not take the group structure of the omics variables into account. The
Kaplan-Meier estimate and a Cox model using only clinical variables were used
as reference methods. The methods were compared using several repetitions of
5-fold cross-validation. Uno's C-index and the integrated Brier-score served as
performance metrics. The results show that, although multi-omics data can
improve the prediction performance, this is not generally the case. Only the
method block forest slightly outperformed the Cox model on average over all
datasets. Taking into account the multi-omics structure improves the predictive
performance and protects variables in low-dimensional groups - especially
clinical variables - from not being included in the model. All analyses are
reproducible using freely available R code.
- Abstract(参考訳): マルチオミクスデータ、すなわち、様々な種類の高次元分子変数(しばしば古典的臨床変数に加えて)を含むデータセットは、様々な疾患を調査するためにますます生成される。
しかし、生存時間などの疾患の予測には、マルチオミクスデータの有用性が疑問視されている。
予測モデルを導出するのに、どの手法が最も適しているかも不明である。
我々は,実データを用いた大規模ベンチマーク研究により,これらの疑問にいくつかの答えを与えることを目指している。
機械学習と統計学の異なる予測手法を、35から1,000の観測結果と6万から10万の変数を含む"The Cancer Genome Atlas"データベースから18のマルチオミクスがんデータセットに適用した。
結果は(検閲された)生存時間であった。
ブースティング法,ペナルタライズド回帰法,ランダムフォレスト法に基づく12の手法を比較し,オミス変数の群構造を考慮しない方法と無作為フォレスト法とを比較した。
臨床変数のみを用いたKaplan-Meier推定とCoxモデルを用いた。
これらの手法は5倍のクロスバリデーションの繰り返しを用いて比較した。
UnoのC-indexと統合されたBrier-scoreはパフォーマンス指標として機能した。
その結果,マルチオミクスデータは予測性能を向上できるが,一般にはそうではないことがわかった。
メソッドブロックフォレストのみが、すべてのデータセットで平均してCoxモデルを上回った。
マルチオミクス構造を考慮すると、予測性能が向上し、低次元群(特に臨床変数)の変数がモデルに含まれないことを保護する。
すべての解析は、自由に利用可能なRコードを使って再現可能である。
関連論文リスト
- Multi-CATE: Multi-Accurate Conditional Average Treatment Effect Estimation Robust to Unknown Covariate Shifts [12.289361708127876]
我々は、CATE T-learnerを後処理するために、マルチ精度の予測子を学習するために方法論を使用する。
このアプローチは、(より大きな)確立された観測データと(より小さな)ランダム化されたデータセットを組み合わせることができることを示す。
論文 参考訳(メタデータ) (2024-05-28T14:12:25Z) - Comparative Analysis of Data Preprocessing Methods, Feature Selection
Techniques and Machine Learning Models for Improved Classification and
Regression Performance on Imbalanced Genetic Data [0.0]
本研究では,データ前処理,特徴選択,モデル選択が遺伝的データセット上で訓練されたモデルの性能に及ぼす影響について検討した。
予測変数や対象変数のアウトラヤ/スキューが回帰モデルに挑戦しないことがわかった。
また,クラス不均衡なターゲット変数とスキュード予測器が分類性能にほとんど影響を与えていないことも見出した。
論文 参考訳(メタデータ) (2024-02-22T21:41:27Z) - Collinear datasets augmentation using Procrustes validation sets [0.0]
数値と混合データセットの増大のための新しい手法を提案する。
クロスバリデーション・リサンプリングと潜在変数モデリングを利用して追加のデータポイントを生成する。
特に、中程度から高いコリニアリティのデータセットでは効率的である。
論文 参考訳(メタデータ) (2023-12-08T09:07:11Z) - Kernel Cox partially linear regression: building predictive models for
cancer patients' survival [4.230753712933184]
我々はカーネルCox比例ハザード半パラメトリックモデルを構築し、モデルに適合する新しい正規化ニンジン化カーネルマシン(RegGKM)を提案する。
我々はカーネルマシン法を用いて生存率と予測値の複雑な関係を記述し、無関係なパラメトリックおよび非パラメトリック予測値を自動的に除去する。
この結果は、患者を異なる死亡リスクを持つグループに分類し、より良い臨床結果を得るために治療を促進するのに役立つ。
論文 参考訳(メタデータ) (2023-10-11T04:27:54Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - ecpc: An R-package for generic co-data models for high-dimensional
prediction [0.0]
R-package ecpcはもともと、様々な、おそらく複数のコデータソースに対応していた。
本稿では,汎用コデータモデルのための手法とソフトウェアの拡張について述べる。
R-package squeezyにより,リッジのペナルティが弾性ネットペナルティにどのように変換されるかを示す。
論文 参考訳(メタデータ) (2022-05-16T12:55:19Z) - Combining Observational and Randomized Data for Estimating Heterogeneous
Treatment Effects [82.20189909620899]
不均一な治療効果を推定することは、多くの領域において重要な問題である。
現在、現存するほとんどの作品は観測データにのみ依存している。
本稿では、大量の観測データと少量のランダム化データを組み合わせることで、不均一な処理効果を推定する。
論文 参考訳(メタデータ) (2022-02-25T18:59:54Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - MURAL: An Unsupervised Random Forest-Based Embedding for Electronic
Health Record Data [59.26381272149325]
異なる変数型でデータを表現するための教師なしランダムフォレストを提案する。
muraL forestsは、ノード分割変数がランダムに選択される一連の決定ツリーで構成されている。
提案手法を用いることで,競合するアプローチよりも正確なデータの視覚化と分類が可能であることを示す。
論文 参考訳(メタデータ) (2021-11-19T22:02:21Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - Tracking disease outbreaks from sparse data with Bayesian inference [55.82986443159948]
新型コロナウイルス(COVID-19)のパンデミックは、感染発生時の感染率を推定する新たな動機を与える。
標準的な手法は、より細かいスケールで共通する部分的な観測可能性とスパースなデータに対応するのに苦労する。
原理的に部分観測可能なベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-12T20:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。