論文の概要: Predicting Microbial Ontology and Pathogen Risk from Environmental Metadata with Large Language Models
- arxiv url: http://arxiv.org/abs/2507.21980v1
- Date: Tue, 29 Jul 2025 16:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.668092
- Title: Predicting Microbial Ontology and Pathogen Risk from Environmental Metadata with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた環境メタデータからの微生物オントロジーと病原性リスクの予測
- Authors: Hyunwoo Yoo, Gail L. Rosen,
- Abstract要約: 大規模言語モデル(LLM)は,メタデータのみを利用できる微生物研究において一般化可能であることを示す。
以上の結果から, LLMは環境微生物学およびバイオサーベイランスへの応用において, 希少で異質な生体メタデータを効果的に推論し, 有望なメタデータのみのアプローチを提供することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional machine learning models struggle to generalize in microbiome studies where only metadata is available, especially in small-sample settings or across studies with heterogeneous label formats. In this work, we explore the use of large language models (LLMs) to classify microbial samples into ontology categories such as EMPO 3 and related biological labels, as well as to predict pathogen contamination risk, specifically the presence of E. Coli, using environmental metadata alone. We evaluate LLMs such as ChatGPT-4o, Claude 3.7 Sonnet, Grok-3, and LLaMA 4 in zero-shot and few-shot settings, comparing their performance against traditional models like Random Forests across multiple real-world datasets. Our results show that LLMs not only outperform baselines in ontology classification, but also demonstrate strong predictive ability for contamination risk, generalizing across sites and metadata distributions. These findings suggest that LLMs can effectively reason over sparse, heterogeneous biological metadata and offer a promising metadata-only approach for environmental microbiology and biosurveillance applications.
- Abstract(参考訳): 従来の機械学習モデルは、メタデータのみが利用可能なマイクロバイオーム研究、特に小さなサンプル設定や異種ラベル形式の研究において、一般化に苦慮している。
本研究では,大型言語モデル(LLMs)を用いて,微生物サンプルをEMPO3などのオントロジーのカテゴリに分類し,環境メタデータのみを用いて有害な汚染リスク,特にE. Coliの存在を予測する。
我々は,ChatGPT-4o,Claude 3.7 Sonnet,Grok-3,LLaMA 4などのLLMをゼロショットおよび少数ショット設定で評価し,実世界の複数のデータセットを対象としたランダムフォレストのような従来のモデルと比較した。
以上の結果から,LLMはオントロジー分類のベースラインに優れるだけでなく,汚染リスクを予測し,サイトやメタデータの分布を一般化できる可能性が示唆された。
これらの結果から, LLMは, 環境微生物学およびバイオサーベイランスへの応用において, 希少で異質な生体メタデータを効果的に推論し, 有望なメタデータのみのアプローチを提供する可能性が示唆された。
関連論文リスト
- CellVerse: Do Large Language Models Really Understand Cell Biology? [74.34984441715517]
我々は,4種類のシングルセルマルチオミクスデータを統合する統一言語中心の質問応答ベンチマークであるCellVerseを紹介する。
我々は,CellVerse上で160Mから671Bまでの14のオープンソースおよびクローズドソースLLMの性能を体系的に評価した。
論文 参考訳(メタデータ) (2025-05-09T06:47:23Z) - TSEML: A task-specific embedding-based method for few-shot classification of cancer molecular subtypes [4.815808233338459]
異種および小癌のデータセットにおける数発の分子サブタイプ予測問題に焦点をあてる。
タスク固有の埋め込み型メタラーニングフレームワーク(TSEML)を導入する。
本フレームワークは,数発の分子サブタイプ分類の問題に対処する上で,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-17T11:30:54Z) - Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research [20.285114234576298]
大規模言語モデル(LLM)は、生物医学と医療の研究に期待されている。
本稿では,ゲノム学およびプロテオミクス研究における3つの新しい課題に対して,微調整LDMとマルチモーダルLSM(MLLM)のコレクションを提案する。
Geneverseのモデルは、ドメイン固有のデータセットに基づいてトレーニングされ、評価される。
適応LLMとMLLMはこれらのタスクに対して良好に動作し、クローズドソースの大規模モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-21T14:19:10Z) - MMIL: A novel algorithm for disease associated cell type discovery [58.044870442206914]
単一細胞データセットは、しばしば個々の細胞ラベルを欠いているため、病気に関連する細胞を特定することは困難である。
セルレベルの分類器の訓練と校正を可能にする予測手法であるMixture Modeling for Multiple Learning Instance (MMIL)を導入する。
論文 参考訳(メタデータ) (2024-06-12T15:22:56Z) - Meta-Learners for Partially-Identified Treatment Effects Across Multiple Environments [67.80453452949303]
観察データから条件平均治療効果(CATE)を推定することは、パーソナライズされた医療など多くの応用に関係している。
ここでは、観測データが複数の環境からやってくる広範囲な環境に焦点を当てる。
任意の機械学習モデルと組み合わせて使用可能な境界を推定するために、異なるモデルに依存しない学習者(いわゆるメタ学習者)を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:31:43Z) - CancerGPT: Few-shot Drug Pair Synergy Prediction using Large Pre-trained
Language Models [3.682742580232362]
大規模事前学習言語モデル(LLM)は、様々な分野にわたる数ショット学習において大きな可能性を秘めている。
我々の研究は、限られたデータを持つまれな組織において、薬物対のシナジー予測に最初に取り組みました。
論文 参考訳(メタデータ) (2023-04-18T02:49:53Z) - Deep neural networks approach to microbial colony detection -- a
comparative analysis [52.77024349608834]
本稿では,AGARデータセットを用いた3つの深層学習手法の性能について検討する。
得られた結果は将来の実験のベンチマークとして機能するかもしれない。
論文 参考訳(メタデータ) (2021-08-23T12:06:00Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。