論文の概要: Human Limits in Machine Learning: Prediction of Plant Phenotypes Using
Soil Microbiome Data
- arxiv url: http://arxiv.org/abs/2306.11157v1
- Date: Mon, 19 Jun 2023 20:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 16:20:17.095846
- Title: Human Limits in Machine Learning: Prediction of Plant Phenotypes Using
Soil Microbiome Data
- Title(参考訳): 機械学習における人間の限界:土壌マイクロバイオームデータによる植物表現型予測
- Authors: Rosa Aghdam, Xudong Tang, Shan Shan, Richard Lankau, Claudia
Sol\'is-Lemus
- Abstract要約: 土壌と生物の表現型との関係を理解するための機械学習モデルの予測可能性について検討する。
モデルに環境特徴を取り入れた場合、重み付けされたF1スコアが示すように、予測が改善されることが示される。
特に, マイクロバイオーム研究でよく用いられる総和スケーリング正規化は, 予測力を最大化するための最適戦略ではないことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The preservation of soil health has been identified as one of the main
challenges of the XXI century given its vast (and potentially threatening)
ramifications in agriculture, human health and biodiversity. Here, we provide
the first deep investigation of the predictive potential of machine-learning
models to understand the connections between soil and biological phenotypes.
Indeed, we investigate an integrative framework performing accurate
machine-learning-based prediction of plant phenotypes from biological, chemical
and physical properties of the soil via two models: random forest and Bayesian
neural network. We show that prediction is improved, as evidenced by higher
weighted F1 scores, when incorporating into the models environmental features
like soil physicochemical properties and microbial population density in
addition to the microbiome information. Furthermore, by exploring multiple data
preprocessing strategies such as normalization, zero replacement, and data
augmentation, we confirm that human decisions have a huge impact on the
predictive performance. In particular, we show that the naive total sum scaling
normalization that is commonly used in microbiome research is not the optimal
strategy to maximize predictive power. In addition, we find that accurately
defined labels are more important than normalization, taxonomic level or model
characteristics. That is, if humans are unable to classify the samples and
provide accurate labels, the performance of machine-learning models will be
limited. Lastly, we present strategies for domain scientists via a full model
selection decision tree to identify the human choices that maximize the
prediction power of the models. Our work is accompanied by open source
reproducible scripts (https://github.com/solislemuslab/soil-microbiome-nn) for
maximum outreach among the microbiome research community.
- Abstract(参考訳): 土壌の健康の保存は、農業、人間の健康、生物多様性において大きな(そして潜在的に脅かされる)影響を受け、 XXI 世紀の主要な課題の1つとして認識されている。
本稿では, 土壌と生物学的表現型との関係を理解するために, 機械学習モデルの予測可能性に関する最初の深い調査を行う。
本研究は,ランダムフォレストとベイズニューラルネットワークの2つのモデルを用いて,土壌の生物学的,化学的,物理的性質から植物表現型を正確に予測する統合的枠組みについて検討した。
微生物情報に加え,土壌物理化学的特性や微生物集団密度などのモデルに組み込むと,より重み付けされたf1スコアによって予測が向上することが示された。
さらに、正規化、ゼロ置換、データ拡張など複数のデータ前処理戦略を探求することにより、人間の決定が予測性能に大きな影響を与えることを確認した。
特に,マイクロバイオーム研究で一般的に用いられるナイーブな総和スケーリング正規化は,予測力を最大化するための最適戦略ではないことを示す。
さらに, 正確に定義されたラベルは, 正規化, 分類学的レベル, モデル特性よりも重要であることがわかった。
つまり、もし人間がサンプルを分類して正確なラベルを提供できなければ、機械学習モデルのパフォーマンスは制限される。
最後に、モデルの予測能力を最大化する人間の選択を特定するために、完全なモデル選択決定木を用いてドメイン科学者のための戦略を示す。
我々の研究には、微生物研究コミュニティの最大のアウトリーチのためのオープンソース再現可能なスクリプト(https://github.com/solislemuslab/soil-microbiome-nn)が伴っている。
関連論文リスト
- Stacked ensemble\-based mutagenicity prediction model using multiple modalities with graph attention network [0.9736758288065405]
変異原性は、様々なネガティブな結果をもたらす遺伝子変異と関連しているため、懸念される。
本研究では,新しいアンサンブルに基づく変異原性予測モデルを提案する。
論文 参考訳(メタデータ) (2024-09-03T09:14:21Z) - Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold [83.18058549195855]
自然科学における複数の過程は、確率密度のワッサーシュタイン多様体上のベクトル場として表さなければならない。
特に、疾患の発生とその治療反応が患者固有の細胞の微小環境に依存するパーソナライズド医療において重要である。
本稿では,これらのベクトル場をワッサーシュタイン多様体上で積分するメタフローマッチング(Meta Flow Matching, MFM)を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:05:31Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - Whole Genome Transformer for Gene Interaction Effects in Microbiome Habitat Specificity [3.972930262155919]
本研究では、遺伝子ベクター化のための既存の大規模モデルを利用して、微生物ゲノム配列全体から生息地特異性を予測する枠組みを提案する。
我々は、異なる生息地から得られた高品質のマイクロバイオームゲノムの大規模なデータセット上で、我々のアプローチを訓練し、検証する。
論文 参考訳(メタデータ) (2024-05-09T09:34:51Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Ecosystem-level Analysis of Deployed Machine Learning Reveals Homogeneous Outcomes [72.13373216644021]
本研究では,機械学習の社会的影響を,特定の文脈に展開されるモデルの集合を考慮し検討する。
デプロイされた機械学習はシステム障害を起こしやすいため、利用可能なすべてのモデルに排他的に誤分類されているユーザもいます。
これらの例は、エコシステムレベルの分析が、機械学習の社会的影響を特徴づける独自の強みを持っていることを示している。
論文 参考訳(メタデータ) (2023-07-12T01:11:52Z) - Application of data engineering approaches to address challenges in
microbiome data for optimal medical decision-making [0.0]
この研究は、マイクロバイオームのデータセットに固有の問題に対処し、パーソナライズされた医療を提供するのに非常に有益である可能性がある。
この研究で使用されたプロトタイプは、マイクロバイオームのデータセットに固有の問題に対処し、パーソナライズされた医療を提供するのに非常に有益である。
論文 参考訳(メタデータ) (2023-06-30T05:36:39Z) - Adaptive Transfer Learning for Plant Phenotyping [33.28898554551106]
植物表現の表現における現代の機械学習モデルの知識伝達可能性について検討する。
植物フェノタイピングにおける注釈付きサンプル数に影響を及ぼす従来の機械学習モデルの性能について
ニューラルネットワークに基づく伝達学習モデルは植物の表現型化の性能を向上させるか?
論文 参考訳(メタデータ) (2022-01-14T00:40:40Z) - Data-Driven Logistic Regression Ensembles With Applications in Genomics [0.0]
本稿では,正規化とアンサンブルのアイデアを組み合わせた高次元二項分類問題に対する新しいアプローチを提案する。
がん,多発性硬化症,乾皮症などの共通疾患を含むいくつかの医学的データセットを用いて,バイオマーカーの予測精度と同定の点で,本手法の優れた性能を実証した。
論文 参考訳(メタデータ) (2021-02-17T05:57:26Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。