論文の概要: Gene Set Summarization using Large Language Models
- arxiv url: http://arxiv.org/abs/2305.13338v3
- Date: Thu, 4 Jul 2024 02:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 01:21:29.148499
- Title: Gene Set Summarization using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた遺伝子セット要約
- Authors: Marcin P. Joachimiak, J. Harry Caufield, Nomi L. Harris, Hyeongsik Kim, Christopher J. Mungall,
- Abstract要約: 我々はGPTモデルを用いて遺伝子セット関数の要約を行う手法を開発した。
これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。
しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。
- 参考スコア(独自算出の注目度): 1.312659265502151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Molecular biologists frequently interpret gene lists derived from high-throughput experiments and computational analysis. This is typically done as a statistical enrichment analysis that measures the over- or under-representation of biological function terms associated with genes or their properties, based on curated assertions from a knowledge base (KB) such as the Gene Ontology (GO). Interpreting gene lists can also be framed as a textual summarization task, enabling the use of Large Language Models (LLMs), potentially utilizing scientific texts directly and avoiding reliance on a KB. We developed SPINDOCTOR (Structured Prompt Interpolation of Natural Language Descriptions of Controlled Terms for Ontology Reporting), a method that uses GPT models to perform gene set function summarization as a complement to standard enrichment analysis. This method can use different sources of gene functional information: (1) structured text derived from curated ontological KB annotations, (2) ontology-free narrative gene summaries, or (3) direct model retrieval. We demonstrate that these methods are able to generate plausible and biologically valid summary GO term lists for gene sets. However, GPT-based approaches are unable to deliver reliable scores or p-values and often return terms that are not statistically significant. Crucially, these methods were rarely able to recapitulate the most precise and informative term from standard enrichment, likely due to an inability to generalize and reason using an ontology. Results are highly nondeterministic, with minor variations in prompt resulting in radically different term lists. Our results show that at this point, LLM-based methods are unsuitable as a replacement for standard term enrichment analysis and that manual curation of ontological assertions remains necessary.
- Abstract(参考訳): 分子生物学者は、高スループット実験と計算解析から得られた遺伝子リストをしばしば解釈する。
これは典型的には、遺伝子オントロジー(GO)のような知識ベース(KB)からのキュレートされたアサーションに基づいて、遺伝子またはそれらの性質に関連する生物学的機能用語の過剰または過小表現を測定する統計エンリッチメント解析として行われる。
遺伝子リストの解釈は、テキスト要約タスクとしてフレーム化され、Large Language Models (LLM) が利用可能になり、科学的なテキストを直接利用でき、KBへの依存を避けることができる。
本研究では,GPTモデルを用いて遺伝子セット関数の要約を行うSPINDOCTOR(Structured Prompt Interpolation of Natural Language Descriptions of Controlled Terms for Ontology Reporting)を開発した。
本手法では,(1) オントロジ的KBアノテーションから得られた構造化テキスト,(2) オントロジのない物語遺伝子要約,(3) 直接モデル検索など,遺伝子機能の異なる情報源を利用できる。
これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。
しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。
重要なことは、これらの手法が標準的な豊かさから最も正確で情報的な用語を再カプセル化することはめったになかった。
結果は極めて非決定論的であり、わずかに異なる用語リストが生じる。
この結果から, LLM を用いた手法は, 標準項濃縮分析の代替として不適であり, オントロジ的アサーションのマニュアルキュレーションは依然として必要であることが示唆された。
関連論文リスト
- VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Evaluation of large language models for discovery of gene set function [0.8864741602534821]
5つの大規模言語モデル (LLM) を, 遺伝子セットで表される共通の生物学的機能を発見する能力について評価した。
遺伝子オントロジーの標準遺伝子セットに対するベンチマークでは、GPT-4はキュレートされた名前やより一般的な概念を確実に回収した。
オミクスデータから得られた遺伝子セットでは、GPT-4は古典的な機能強化によって報告されていない新しい機能を同定した。
論文 参考訳(メタデータ) (2023-09-07T21:10:48Z) - DynGFN: Towards Bayesian Inference of Gene Regulatory Networks with
GFlowNets [81.75973217676986]
遺伝子調節ネットワーク(GRN)は、遺伝子発現と細胞機能を制御する遺伝子とその産物間の相互作用を記述する。
既存の方法は、チャレンジ(1)、ダイナミックスから循環構造を識別すること、あるいはチャレンジ(2)、DAGよりも複雑なベイズ後部を学習することに焦点を当てるが、両方ではない。
本稿では、RNAベロシティ技術を用いて遺伝子発現の「速度」を推定できるという事実を活用し、両方の課題に対処するアプローチを開発する。
論文 参考訳(メタデータ) (2023-02-08T16:36:40Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - A single-cell gene expression language model [2.9112649816695213]
遺伝子間のコンテキスト依存を学習する機械学習システムを提案する。
我々のモデルであるExceiverは、自己教師型タスクを用いて、多様な細胞タイプで訓練されている。
生物学的アノテーションに関して,潜在サンプル表現の類似性プロファイルと学習された遺伝子埋め込みとの間に一致が認められた。
論文 参考訳(メタデータ) (2022-10-25T20:52:19Z) - Granger causal inference on DAGs identifies genomic loci regulating
transcription [77.58911272503771]
GrID-Netは、DBG構造化システムにおけるGranger因果推論のためのラタグメッセージパッシングを備えたグラフニューラルネットワークに基づくフレームワークである。
我々の応用は、特定の遺伝子の調節を仲介するゲノム座を同定する単一セルマルチモーダルデータの解析である。
論文 参考訳(メタデータ) (2022-10-18T21:15:10Z) - Natural language processing for clusterization of genes according to
their functions [62.997667081978825]
本稿では,数千の遺伝子の解析を減らし,複数のクラスタの解析を行うアプローチを提案する。
これらの記述は、事前訓練された言語モデル(BERT)といくつかのテキスト処理アプローチを用いてベクトルとして符号化される。
論文 参考訳(メタデータ) (2022-07-17T12:59:34Z) - Feature extraction using Spectral Clustering for Gene Function
Prediction [0.4492444446637856]
本稿では,クラスタ分析と階層的マルチラベル分類を組み合わせたアノテーション問題に対する,シリコアプローチの新たなアプローチを提案する。
提案手法は、世界で最も支配的かつ生産的な作物であるゼア・メイズ(Zia mays)のケーススタディに適用される。
論文 参考訳(メタデータ) (2022-03-25T10:17:36Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。