論文の概要: Evaluation of large language models for discovery of gene set function
- arxiv url: http://arxiv.org/abs/2309.04019v1
- Date: Thu, 7 Sep 2023 21:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 16:34:15.009209
- Title: Evaluation of large language models for discovery of gene set function
- Title(参考訳): 遺伝子集合機能発見のための大規模言語モデルの評価
- Authors: Mengzhou Hu and Sahar Alkhairy, Ingoo Lee, Rudolf T. Pillich, Robin
Bachelder, Trey Ideker, and Dexter Pratt
- Abstract要約: 我々は,OpenAIのGPT-4を組み込んだ生物医学的知識から,共通遺伝子機能に関する仮説を立案する能力を評価する。
我々は、GPT-4パイプラインを作成し、解析テキストと引用によって、それらのコンセンサス関数を要約した名前で遺伝子セットをラベル付けした。
オミクスデータで発見された遺伝子セットでは、GPT-4の名称は遺伝子セットの豊かさよりも情報的であり、ヒトのレビューで大きく検証されたステートメントや引用を支持した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gene set analysis is a mainstay of functional genomics, but it relies on
manually curated databases of gene functions that are incomplete and unaware of
biological context. Here we evaluate the ability of OpenAI's GPT-4, a Large
Language Model (LLM), to develop hypotheses about common gene functions from
its embedded biomedical knowledge. We created a GPT-4 pipeline to label gene
sets with names that summarize their consensus functions, substantiated by
analysis text and citations. Benchmarking against named gene sets in the Gene
Ontology, GPT-4 generated very similar names in 50% of cases, while in most
remaining cases it recovered the name of a more general concept. In gene sets
discovered in 'omics data, GPT-4 names were more informative than gene set
enrichment, with supporting statements and citations that largely verified in
human review. The ability to rapidly synthesize common gene functions positions
LLMs as valuable functional genomics assistants.
- Abstract(参考訳): 遺伝子セット解析は機能ゲノム学の主要な基盤であるが、生物学的文脈に不完全な遺伝子機能の手作業によるデータベースに依存している。
本稿では、組込み生物医学的知識から共通の遺伝子機能に関する仮説を展開する大規模言語モデル(llm)であるopenaiのgpt-4の機能を評価する。
我々はgpt-4パイプラインを作成し,解析テキストと引用文により,コンセンサス機能を要約した遺伝子集合をラベルづけした。
遺伝子オントロジーにおける名前付き遺伝子セットに対するベンチマークでは、gpt-4は50%のケースで非常に類似した名前を生成し、残りのケースではより一般的な概念の名前を回復した。
オミクスデータで発見された遺伝子セットでは、GPT-4の名前は遺伝子セットの豊かさよりも情報的であり、ヒトのレビューで大きく検証された文や引用を支持した。
共通遺伝子機能を迅速に合成する能力は、LLMを有用な機能ゲノムアシスタントとして位置づける。
関連論文リスト
- Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - ProtiGeno: a prokaryotic short gene finder using protein language models [1.2354076490479513]
現在の遺伝子発見者は長い遺伝子を見つけることに非常に敏感であるが、その感度は短い遺伝子を見つける際に顕著に低下する。
我々はProtiGenoと呼ばれる深層学習に基づく手法を開発し、特に短いプロカリアティック遺伝子を標的とした。
4,288個のプロカリーゼゲノムの系統的大規模実験において、ProtiGenoは、現在の最先端遺伝子ファインダーよりも高精度で短いコードと非コード遺伝子を予測できることを実証した。
論文 参考訳(メタデータ) (2023-07-19T16:46:42Z) - Gene Set Summarization using Large Language Models [0.8239278217897693]
我々はGPTモデルを用いて遺伝子セット関数の要約を行う手法を開発した。
これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。
しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。
論文 参考訳(メタデータ) (2023-05-21T02:06:33Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - Unsupervised ensemble-based phenotyping helps enhance the
discoverability of genes related to heart morphology [57.25098075813054]
我々はUn Phenotype Ensemblesという名の遺伝子発見のための新しいフレームワークを提案する。
教師なしの方法で学習された表現型のセットをプールすることで、冗長だが非常に表現性の高い表現を構築する。
これらの表現型は、(GWAS)を介して分析され、高い自信と安定した関連のみを保持する。
論文 参考訳(メタデータ) (2023-01-07T18:36:44Z) - rfPhen2Gen: A machine learning based association study of brain imaging
phenotypes to genotypes [71.1144397510333]
56個の脳画像QTを用いてSNPを予測する機械学習モデルを学習した。
アルツハイマー病(AD)リスク遺伝子APOEのSNPは、ラスソとランダムな森林に対して最低のRMSEを有していた。
ランダム・フォレストは、線形モデルによって優先順位付けされなかったが、脳関連疾患と関連があることが知られている追加のSNPを特定した。
論文 参考訳(メタデータ) (2022-03-31T20:15:22Z) - Feature extraction using Spectral Clustering for Gene Function
Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。
提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-03-25T10:17:36Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - Feature reduction for machine learning on molecular features: The
GeneScore [58.720142291102135]
GeneScoreは、バイオメディカルデータの機械学習分析のための機能削減の概念です。
GeneScoreは癌実体の分類において二項行列よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-14T10:58:39Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z) - Handling highly correlated genes in prediction analysis of genomic
studies [0.0]
遺伝子間の高い相関は、多系統問題のような技術的な問題を導入し、信頼性の低い予測モデルをもたらす。
本稿では,高相関遺伝子をグループとして扱うグループ化アルゴリズムを提案する。
まず、遺伝子群の共通パターンを用いることで、条件変化下での予測をより堅牢で信頼性の高いものにする。
論文 参考訳(メタデータ) (2020-07-05T22:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。