論文の概要: Application of data engineering approaches to address challenges in
microbiome data for optimal medical decision-making
- arxiv url: http://arxiv.org/abs/2307.00033v2
- Date: Tue, 11 Jul 2023 11:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-12 17:49:04.540260
- Title: Application of data engineering approaches to address challenges in
microbiome data for optimal medical decision-making
- Title(参考訳): 医療意思決定におけるマイクロバイオームデータの課題へのデータ工学的アプローチの適用
- Authors: Isha Thombre, Pavan Kumar Perepu, Shyam Kumar Sudhakar
- Abstract要約: この研究は、マイクロバイオームのデータセットに固有の問題に対処し、パーソナライズされた医療を提供するのに非常に有益である可能性がある。
この研究で使用されたプロトタイプは、マイクロバイオームのデータセットに固有の問題に対処し、パーソナライズされた医療を提供するのに非常に有益である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The human gut microbiota is known to contribute to numerous physiological
functions of the body and also implicated in a myriad of pathological
conditions. Prolific research work in the past few decades have yielded
valuable information regarding the relative taxonomic distribution of gut
microbiota. Unfortunately, the microbiome data suffers from class imbalance and
high dimensionality issues that must be addressed. In this study, we have
implemented data engineering algorithms to address the above-mentioned issues
inherent to microbiome data. Four standard machine learning classifiers
(logistic regression (LR), support vector machines (SVM), random forests (RF),
and extreme gradient boosting (XGB) decision trees) were implemented on a
previously published dataset. The issue of class imbalance and high
dimensionality of the data was addressed through synthetic minority
oversampling technique (SMOTE) and principal component analysis (PCA). Our
results indicate that ensemble classifiers (RF and XGB decision trees) exhibit
superior classification accuracy in predicting the host phenotype. The
application of PCA significantly reduced testing time while maintaining high
classification accuracy. The highest classification accuracy was obtained at
the levels of species for most classifiers. The prototype employed in the study
addresses the issues inherent to microbiome datasets and could be highly
beneficial for providing personalized medicine.
- Abstract(参考訳): ヒトの腸内微生物は、身体の多くの生理機能に寄与し、また無数の病態に関係していることが知られている。
過去数十年にわたる多作な研究は、腸内微生物の相対的分類学的分布に関する貴重な情報をもたらした。
残念ながら、マイクロバイオームデータはクラス不均衡と対処しなければならない高次元の問題に悩まされている。
本研究では,マイクロバイオームデータ固有の問題に対処するために,データ工学アルゴリズムを実装した。
4つの標準機械学習分類器(論理回帰(LR)、サポートベクターマシン(SVM)、ランダムフォレスト(RF)、極端な勾配向上(XGB)決定木)が、以前に公開されたデータセット上に実装された。
データのクラス不均衡と高次元性の問題は、合成マイノリティオーバーサンプリング技術(SMOTE)と主成分分析(PCA)によって解決された。
以上の結果から,エンサンブル分類器 (RF, XGB決定木) はホスト表現型の予測に優れた分類精度を示した。
PCAの応用は高い分類精度を維持しながら試験時間を著しく短縮した。
最も高い分類精度は,ほとんどの分類器の種レベルで得られた。
この研究で使用されたプロトタイプは、マイクロバイオームのデータセットに固有の問題に対処し、パーソナライズされた医療を提供するのに非常に有益である。
関連論文リスト
- Artificial Data Point Generation in Clustered Latent Space for Small
Medical Datasets [4.542616945567623]
本稿では,クラスタ化潜在空間(AGCL)における人工データポイント生成手法を提案する。
AGCLは、合成データ生成により、小さな医療データセットの分類性能を向上させるように設計されている。
顔の表情データを利用してパーキンソン病検診に応用した。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Human Limits in Machine Learning: Prediction of Plant Phenotypes Using
Soil Microbiome Data [0.2812395851874055]
我々は,土壌と生物表現型との関係を理解するために,機械学習モデルの予測可能性について,初めて深く研究した。
土壌物理化学的特性や微生物集団密度などの環境特性をモデルに組み込んだ場合, 予測精度が向上することを示す。
論文 参考訳(メタデータ) (2023-06-19T20:52:37Z) - Label scarcity in biomedicine: Data-rich latent factor discovery
enhances phenotype prediction [102.23901690661916]
低次元の埋め込み空間は、健康指標、ライフスタイル、および人口動態の予測をデータスカース化するために、英国バイオバンクの人口データセットから導出することができる。
半超越的アプローチによるパフォーマンス向上は、おそらく様々な医学データサイエンス応用にとって重要な要素となるだろう。
論文 参考訳(メタデータ) (2021-10-12T16:25:50Z) - Deep neural networks approach to microbial colony detection -- a
comparative analysis [52.77024349608834]
本稿では,AGARデータセットを用いた3つの深層学習手法の性能について検討する。
得られた結果は将来の実験のベンチマークとして機能するかもしれない。
論文 参考訳(メタデータ) (2021-08-23T12:06:00Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Mycorrhiza: Genotype Assignment usingPhylogenetic Networks [2.286041284499166]
遺伝子型代入問題に対する機械学習手法であるMycorrhizaを紹介する。
提案アルゴリズムは系統ネットワークを用いて,標本間の進化的関係を符号化する特徴を設計する。
Mycorrhizaは、大きな平均固定指数(FST)を持つデータセットやハーディ・ワインバーグ平衡からの偏差で特に顕著な利得を得る。
論文 参考訳(メタデータ) (2020-10-14T02:36:27Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。