論文の概要: Evaluation of large language models for discovery of gene set function
- arxiv url: http://arxiv.org/abs/2309.04019v2
- Date: Mon, 1 Apr 2024 05:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:12:17.165153
- Title: Evaluation of large language models for discovery of gene set function
- Title(参考訳): 遺伝子セット関数の発見のための大規模言語モデルの評価
- Authors: Mengzhou Hu, Sahar Alkhairy, Ingoo Lee, Rudolf T. Pillich, Dylan Fong, Kevin Smith, Robin Bachelder, Trey Ideker, Dexter Pratt,
- Abstract要約: 5つの大規模言語モデル (LLM) を, 遺伝子セットで表される共通の生物学的機能を発見する能力について評価した。
遺伝子オントロジーの標準遺伝子セットに対するベンチマークでは、GPT-4はキュレートされた名前やより一般的な概念を確実に回収した。
オミクスデータから得られた遺伝子セットでは、GPT-4は古典的な機能強化によって報告されていない新しい機能を同定した。
- 参考スコア(独自算出の注目度): 0.8864741602534821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gene set analysis is a mainstay of functional genomics, but it relies on curated databases of gene functions that are incomplete. Here we evaluate five Large Language Models (LLMs) for their ability to discover the common biological functions represented by a gene set, substantiated by supporting rationale, citations and a confidence assessment. Benchmarking against canonical gene sets from the Gene Ontology, GPT-4 confidently recovered the curated name or a more general concept (73% of cases), while benchmarking against random gene sets correctly yielded zero confidence. Gemini-Pro and Mixtral-Instruct showed ability in naming but were falsely confident for random sets, whereas Llama2-70b had poor performance overall. In gene sets derived from 'omics data, GPT-4 identified novel functions not reported by classical functional enrichment (32% of cases), which independent review indicated were largely verifiable and not hallucinations. The ability to rapidly synthesize common gene functions positions LLMs as valuable 'omics assistants.
- Abstract(参考訳): 遺伝子セット解析は機能ゲノミクスのメインステイであるが、不完全である遺伝子の関数のキュレートされたデータベースに依存している。
ここでは,5つの大規模言語モデル(LLM)を,遺伝子セットで表される共通生物学的機能を発見する能力として評価する。
遺伝子オントロジーの標準遺伝子セットに対するベンチマークでは、GPT-4は、キュレートされた名前またはより一般的な概念を確実に回収し(73%)、ランダムな遺伝子セットに対するベンチマークは、正しくゼロ信頼を得た。
Gemini-Pro と Mixtral-Instruct は命名能力を示したが、Llama2-70b は性能が低かった。
オミクスデータから得られた遺伝子セットでは、GPT-4は古典的機能強化(32%)によって報告されていない新規機能を同定した。
共通遺伝子機能を迅速に合成する能力は、LSMを貴重な「オミクスアシスタント」として位置づける。
関連論文リスト
- Predicting Genetic Mutation from Whole Slide Images via Biomedical-Linguistic Knowledge Enhanced Multi-label Classification [119.13058298388101]
遺伝子変異予測性能を向上させるため,生物知識を付加したPathGenomic Multi-label Transformerを開発した。
BPGTはまず、2つの慎重に設計されたモジュールによって遺伝子前駆体を構成する新しい遺伝子エンコーダを確立する。
BPGTはその後ラベルデコーダを設計し、最終的に2つの調整されたモジュールによる遺伝的突然変異予測を行う。
論文 参考訳(メタデータ) (2024-06-05T06:42:27Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - GeneAgent: Self-verification Language Agent for Gene Set Knowledge Discovery using Domain Databases [5.831842925038342]
自己検証機能を備えた第一種言語エージェントGeneAgentを提案する。
様々な生物学的データベースと自律的に相互作用し、精度を高め、幻覚の発生を減らす。
異なるソースから1,106の遺伝子セットをベンチマークすると、GeneAgentは標準のGPT-4よりずっと優れています。
論文 参考訳(メタデータ) (2024-05-25T12:35:15Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - ProtiGeno: a prokaryotic short gene finder using protein language models [1.2354076490479513]
現在の遺伝子発見者は長い遺伝子を見つけることに非常に敏感であるが、その感度は短い遺伝子を見つける際に顕著に低下する。
我々はProtiGenoと呼ばれる深層学習に基づく手法を開発し、特に短いプロカリアティック遺伝子を標的とした。
4,288個のプロカリーゼゲノムの系統的大規模実験において、ProtiGenoは、現在の最先端遺伝子ファインダーよりも高精度で短いコードと非コード遺伝子を予測できることを実証した。
論文 参考訳(メタデータ) (2023-07-19T16:46:42Z) - Gene Set Summarization using Large Language Models [1.312659265502151]
我々はGPTモデルを用いて遺伝子セット関数の要約を行う手法を開発した。
これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。
しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。
論文 参考訳(メタデータ) (2023-05-21T02:06:33Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Feature extraction using Spectral Clustering for Gene Function
Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。
提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-03-25T10:17:36Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。