論文の概要: Interpreting Microbiome Relative Abundance Data Using Symbolic Regression
- arxiv url: http://arxiv.org/abs/2410.16109v1
- Date: Fri, 18 Oct 2024 09:35:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:08.827317
- Title: Interpreting Microbiome Relative Abundance Data Using Symbolic Regression
- Title(参考訳): シンボリック回帰を用いた微生物相対異常データの解釈
- Authors: Swagatam Haldar, Christoph Stein-Thoeringer, Vadim Borisov,
- Abstract要約: 本稿では,大腸癌(CRC)を中心に,マイクロバイオームの相対的存在量データに対するシンボルレグレッションの適用について検討する。
749種にまたがる1万種以上の標本をコホートから71種類の研究に利用した。
以上の結果から,SRは予測性能だけでなく,モデル解釈可能性も優れていることが示唆された。
- 参考スコア(独自算出の注目度): 2.8363066545425286
- License:
- Abstract: Understanding the complex interactions within the microbiome is crucial for developing effective diagnostic and therapeutic strategies. Traditional machine learning models often lack interpretability, which is essential for clinical and biological insights. This paper explores the application of symbolic regression (SR) to microbiome relative abundance data, with a focus on colorectal cancer (CRC). SR, known for its high interpretability, is compared against traditional machine learning models, e.g., random forest, gradient boosting decision trees. These models are evaluated based on performance metrics such as F1 score and accuracy. We utilize 71 studies encompassing, from various cohorts, over 10,000 samples across 749 species features. Our results indicate that SR not only competes reasonably well in terms of predictive performance, but also excels in model interpretability. SR provides explicit mathematical expressions that offer insights into the biological relationships within the microbiome, a crucial advantage for clinical and biological interpretation. Our experiments also show that SR can help understand complex models like XGBoost via knowledge distillation. To aid in reproducibility and further research, we have made the code openly available at https://github.com/swag2198/microbiome-symbolic-regression .
- Abstract(参考訳): マイクロバイオーム内の複雑な相互作用を理解することは、効果的な診断および治療戦略の開発に不可欠である。
従来の機械学習モデルは、臨床および生物学的洞察に不可欠な解釈可能性に欠けることが多い。
本稿では, 大腸癌(CRC)を中心に, シンボリックレグレッション(SR)をマイクロバイオームの相対的存在量データに適用することを検討した。
SRは高い解釈可能性で知られており、従来の機械学習モデル、例えばランダムフォレスト、勾配向上決定木と比較されている。
これらのモデルは、F1スコアや精度などのパフォーマンス指標に基づいて評価される。
749種にまたがる1万種以上の標本をコホートから71種類の研究に利用した。
以上の結果から,SRは予測性能だけでなく,モデル解釈可能性も優れていることが示唆された。
SRは、マイクロバイオーム内の生物学的関係に関する洞察を提供する明確な数学的表現を提供しており、臨床および生物学的解釈にとって重要な利点である。
我々の実験は、知識蒸留によってXGBoostのような複雑なモデルを理解するのに役立つことも示している。
再現性とさらなる研究を支援するため、このコードをhttps://github.com/swag2198/microbiome-symbolic-regressionで公開しました。
関連論文リスト
- Revisiting K-mer Profile for Effective and Scalable Genome Representation Learning [0.0]
我々は、k-merをベースとしたゲノムの表現の理論解析を行う。
本稿では,ゲノム読取レベルでメダゲノミクスビニングを行うための軽量でスケーラブルなモデルを提案する。
論文 参考訳(メタデータ) (2024-11-04T14:36:51Z) - Simulation-based Inference for Cardiovascular Models [57.92535897767929]
シミュレーションに基づく推論を用いて、波形をプラプシブルな生理的パラメータにマッピングする逆問題を解決する。
臨床応用5種類のバイオマーカーのin-silico不確実性解析を行った。
我々はMIMIC-III波形データベースを用いて,ビビオとシリカのギャップについて検討した。
論文 参考訳(メタデータ) (2023-07-26T02:34:57Z) - Studying Limits of Explainability by Integrated Gradients for Gene
Expression Models [3.220287168504093]
重要度によるランク付け機能は,バイオマーカーの同定に十分ではないことを示す。
バイオマーカーが真理を知らないままに関係する原因を反映しているかどうかを評価することは難しいため、階層的モデルを提案することで遺伝子発現データをシミュレートする。
論文 参考訳(メタデータ) (2023-03-19T19:54:15Z) - Modelling Technical and Biological Effects in scRNA-seq data with
Scalable GPLVMs [6.708052194104378]
我々は,ガウス過程潜在変数モデルである確率的非線形次元減少に対する一般的なアプローチを拡張し,大規模単一セルデータセットに拡張する。
鍵となる考え方は、高速な変動推論を可能にする下位境界の分解可能性を保存する拡張カーネルを使用することである。
論文 参考訳(メタデータ) (2022-09-14T15:25:15Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Supervised Learning and Model Analysis with Compositional Data [4.082799056366927]
KernelBiomeはカーネルベースの非パラメトリック回帰分類フレームワークである。
我々は、最先端の機械学習手法と比較して、同等または改善された性能を示す。
論文 参考訳(メタデータ) (2022-05-15T12:33:43Z) - Improving generalization of machine learning-identified biomarkers with
causal modeling: an investigation into immune receptor diagnostics [2.40246230430283]
我々は、最近確立された高次元バイオマーカー-アダプティブ免疫受容体レパートリー(AIRRs)に焦点をあてる。
因果モデリングは,変数間の安定な関係を同定することにより,機械学習に基づくバイオマーカーの堅牢性を向上させる。
論文 参考訳(メタデータ) (2022-04-20T08:15:54Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。