論文の概要: Data-Driven Logistic Regression Ensembles With Applications in Genomics
- arxiv url: http://arxiv.org/abs/2102.08591v5
- Date: Thu, 21 Nov 2024 05:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-24 16:38:51.943450
- Title: Data-Driven Logistic Regression Ensembles With Applications in Genomics
- Title(参考訳): データ駆動ロジスティック回帰がゲノミクスの応用と融合
- Authors: Anthony-Alexander Christidis, Stefan Van Aelst, Ruben Zamar,
- Abstract要約: 本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Advances in data collecting technologies in genomics have significantly increased the need for tools designed to study the genetic basis of many diseases. Statistical tools used to discover patterns between the expression of certain genes and the presence of diseases should ideally perform well in terms of both prediction accuracy and identification of key biomarkers. We propose a new approach for dealing with high-dimensional binary classification problems that combines ideas from regularization and ensembling. The ensembles are comprised of a relatively small number of highly accurate and interpretable models that are learned directly from the data by minimizing a global objective function. We derive the asymptotic properties of our method and develop an efficient algorithm to compute the ensembles. We demonstrate the good performance of our method in terms of prediction accuracy and identification of key biomarkers using several medical genomics datasets involving common diseases such as cancer, multiple sclerosis and psoriasis. In several applications our method could identify key biomarkers that were absent in state-of-the-art competitor methods. We develop a variable importance ranking tool that may guide the focus of researchers on the most promising genes. Based on numerical experiments we provide guidelines for the choice of the number of models in our ensembles.
- Abstract(参考訳): ゲノム学におけるデータ収集技術の進歩は、多くの病気の遺伝的基盤を研究するために設計されたツールの必要性を著しく高めた。
特定の遺伝子の発現と疾患の存在の間のパターンを発見するために用いられる統計ツールは、予測精度と重要なバイオマーカーの同定の両方の観点から、理想的にうまく機能する。
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
アンサンブルは、大域的目的関数を最小化することにより、データから直接学習される比較的少数の高精度で解釈可能なモデルで構成されている。
我々は,本手法の漸近特性を導出し,アンサンブルを計算するための効率的なアルゴリズムを開発した。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学ゲノムデータセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
いくつかの応用において、我々の手法は最先端の競合手法に欠けている重要なバイオマーカーを同定することができた。
我々は、最も有望な遺伝子に対する研究者の焦点をガイドする様々な重要度ランキングツールを開発した。
数値実験に基づいて、アンサンブル内のモデル数を選択するためのガイドラインを提供する。
関連論文リスト
- Stacked ensemble\-based mutagenicity prediction model using multiple modalities with graph attention network [0.9736758288065405]
変異原性は、様々なネガティブな結果をもたらす遺伝子変異と関連しているため、懸念される。
本研究では,新しいアンサンブルに基づく変異原性予測モデルを提案する。
論文 参考訳(メタデータ) (2024-09-03T09:14:21Z) - Simplicity within biological complexity [0.0]
文献を調査し、マルチスケール分子ネットワークデータの埋め込みのための包括的フレームワークの開発について論じる。
ネットワーク埋め込み手法はノードを低次元空間の点にマッピングすることにより、学習空間の近接性はネットワークのトポロジ-関数関係を反映する。
本稿では,モデルから効率的かつスケーラブルなソフトウェア実装に至るまで,マルチオミックネットワークデータのための汎用的な包括的埋め込みフレームワークを開発することを提案する。
論文 参考訳(メタデータ) (2024-05-15T13:32:45Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z) - Embracing assay heterogeneity with neural processes for markedly
improved bioactivity predictions [0.276240219662896]
リガンドの生物活性を予測することは、コンピュータ支援薬物発見において最も困難かつ最も重要な課題の1つである。
長年のデータ収集とキュレーションの努力にもかかわらず、生物活性データは希少で不均一である。
異種アッセイ間の情報シナジーを利用した階層型メタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-17T16:26:58Z) - Functional Integrative Bayesian Analysis of High-dimensional
Multiplatform Genomic Data [0.8029049649310213]
我々は高次元多プラットフォームゲノミクスデータ(fiBAG)の関数積分ベイズ解析というフレームワークを提案する。
fiBAGは、プロテオゲノムバイオマーカーの上流での機能的証拠の同時同定を可能にする。
本研究は,14種類のがんのパン・カンサー解析を用いて,fiBAGの収益性を示す。
論文 参考訳(メタデータ) (2022-12-29T03:31:45Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - G-MIND: An End-to-End Multimodal Imaging-Genetics Framework for
Biomarker Identification and Disease Classification [49.53651166356737]
診断によって誘導される画像データと遺伝データを統合し、解釈可能なバイオマーカーを提供する新しいディープニューラルネットワークアーキテクチャを提案する。
2つの機能的MRI(fMRI)パラダイムとSingle Nucleotide Polymorphism (SNP)データを含む統合失調症の集団研究で本モデルを評価した。
論文 参考訳(メタデータ) (2021-01-27T19:28:04Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。