論文の概要: Evaluation of large language models for discovery of gene set function
- arxiv url: http://arxiv.org/abs/2309.04019v1
- Date: Thu, 7 Sep 2023 21:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 16:34:15.009209
- Title: Evaluation of large language models for discovery of gene set function
- Title(参考訳): 遺伝子集合機能発見のための大規模言語モデルの評価
- Authors: Mengzhou Hu and Sahar Alkhairy, Ingoo Lee, Rudolf T. Pillich, Robin
Bachelder, Trey Ideker, and Dexter Pratt
- Abstract要約: 我々は,OpenAIのGPT-4を組み込んだ生物医学的知識から,共通遺伝子機能に関する仮説を立案する能力を評価する。
我々は、GPT-4パイプラインを作成し、解析テキストと引用によって、それらのコンセンサス関数を要約した名前で遺伝子セットをラベル付けした。
オミクスデータで発見された遺伝子セットでは、GPT-4の名称は遺伝子セットの豊かさよりも情報的であり、ヒトのレビューで大きく検証されたステートメントや引用を支持した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gene set analysis is a mainstay of functional genomics, but it relies on
manually curated databases of gene functions that are incomplete and unaware of
biological context. Here we evaluate the ability of OpenAI's GPT-4, a Large
Language Model (LLM), to develop hypotheses about common gene functions from
its embedded biomedical knowledge. We created a GPT-4 pipeline to label gene
sets with names that summarize their consensus functions, substantiated by
analysis text and citations. Benchmarking against named gene sets in the Gene
Ontology, GPT-4 generated very similar names in 50% of cases, while in most
remaining cases it recovered the name of a more general concept. In gene sets
discovered in 'omics data, GPT-4 names were more informative than gene set
enrichment, with supporting statements and citations that largely verified in
human review. The ability to rapidly synthesize common gene functions positions
LLMs as valuable functional genomics assistants.
- Abstract(参考訳): 遺伝子セット解析は機能ゲノム学の主要な基盤であるが、生物学的文脈に不完全な遺伝子機能の手作業によるデータベースに依存している。
本稿では、組込み生物医学的知識から共通の遺伝子機能に関する仮説を展開する大規模言語モデル(llm)であるopenaiのgpt-4の機能を評価する。
我々はgpt-4パイプラインを作成し,解析テキストと引用文により,コンセンサス機能を要約した遺伝子集合をラベルづけした。
遺伝子オントロジーにおける名前付き遺伝子セットに対するベンチマークでは、gpt-4は50%のケースで非常に類似した名前を生成し、残りのケースではより一般的な概念の名前を回復した。
オミクスデータで発見された遺伝子セットでは、GPT-4の名前は遺伝子セットの豊かさよりも情報的であり、ヒトのレビューで大きく検証された文や引用を支持した。
共通遺伝子機能を迅速に合成する能力は、LLMを有用な機能ゲノムアシスタントとして位置づける。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Survey and Improvement Strategies for Gene Prioritization with Large Language Models [61.24568051916653]
大規模言語モデル (LLM) は, 医学検査において良好に機能しているが, 希少な遺伝疾患の診断における有効性は評価されていない。
表現型と可溶性レベルに基づいて, マルチエージェントとヒトフェノタイプオントロジー(HPO)を分類した。
ベースラインでは、GPT-4は他のLLMよりも優れており、因果遺伝子を正しくランク付けする際の精度は30%近く向上した。
論文 参考訳(メタデータ) (2025-01-30T23:03:03Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - GeneAgent: Self-verification Language Agent for Gene Set Knowledge Discovery using Domain Databases [5.831842925038342]
自己検証機能を備えた第一種言語エージェントGeneAgentを提案する。
様々な生物学的データベースと自律的に相互作用し、精度を高め、幻覚の発生を減らす。
異なるソースから1,106の遺伝子セットをベンチマークすると、GeneAgentは標準のGPT-4よりずっと優れています。
論文 参考訳(メタデータ) (2024-05-25T12:35:15Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - FGBERT: Function-Driven Pre-trained Gene Language Model for Metagenomics [46.189419603576084]
FGBERTは、タンパク質に基づく遺伝子表現を文脈認識トークン化剤として利用する、新しいメダゲノミクス事前訓練モデルである。
これは、遺伝子、機能、細菌、環境レベルにまたがる4つのレベルでのメダゲノミクスデータセットに優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-24T13:13:17Z) - ProtiGeno: a prokaryotic short gene finder using protein language models [1.2354076490479513]
現在の遺伝子発見者は長い遺伝子を見つけることに非常に敏感であるが、その感度は短い遺伝子を見つける際に顕著に低下する。
我々はProtiGenoと呼ばれる深層学習に基づく手法を開発し、特に短いプロカリアティック遺伝子を標的とした。
4,288個のプロカリーゼゲノムの系統的大規模実験において、ProtiGenoは、現在の最先端遺伝子ファインダーよりも高精度で短いコードと非コード遺伝子を予測できることを実証した。
論文 参考訳(メタデータ) (2023-07-19T16:46:42Z) - Gene Set Summarization using Large Language Models [1.312659265502151]
我々はGPTモデルを用いて遺伝子セット関数の要約を行う手法を開発した。
これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。
しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。
論文 参考訳(メタデータ) (2023-05-21T02:06:33Z) - Feature extraction using Spectral Clustering for Gene Function
Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。
提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-03-25T10:17:36Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。