論文の概要: Gene Set Summarization using Large Language Models
- arxiv url: http://arxiv.org/abs/2305.13338v2
- Date: Thu, 25 May 2023 19:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:23:37.713303
- Title: Gene Set Summarization using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた遺伝子集合要約
- Authors: Marcin P. Joachimiak, J. Harry Caufield, Nomi L. Harris, Hyeongsik
Kim, Christopher J. Mungall
- Abstract要約: 我々はGPTモデルを用いて遺伝子セット関数の要約を行う手法を開発した。
これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。
しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。
- 参考スコア(独自算出の注目度): 0.8239278217897693
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Molecular biologists frequently interpret gene lists derived from
high-throughput experiments and computational analysis. This is typically done
as a statistical enrichment analysis that measures the over- or
under-representation of biological function terms associated with genes or
their properties, based on curated assertions from a knowledge base (KB) such
as the Gene Ontology (GO). Interpreting gene lists can also be framed as a
textual summarization task, enabling the use of Large Language Models (LLMs),
potentially utilizing scientific texts directly and avoiding reliance on a KB.
We developed SPINDOCTOR (Structured Prompt Interpolation of Natural Language
Descriptions of Controlled Terms for Ontology Reporting), a method that uses
GPT models to perform gene set function summarization as a complement to
standard enrichment analysis. This method can use different sources of gene
functional information: (1) structured text derived from curated ontological KB
annotations, (2) ontology-free narrative gene summaries, or (3) direct model
retrieval.
We demonstrate that these methods are able to generate plausible and
biologically valid summary GO term lists for gene sets. However, GPT-based
approaches are unable to deliver reliable scores or p-values and often return
terms that are not statistically significant. Crucially, these methods were
rarely able to recapitulate the most precise and informative term from standard
enrichment, likely due to an inability to generalize and reason using an
ontology. Results are highly nondeterministic, with minor variations in prompt
resulting in radically different term lists. Our results show that at this
point, LLM-based methods are unsuitable as a replacement for standard term
enrichment analysis and that manual curation of ontological assertions remains
necessary.
- Abstract(参考訳): 分子生物学者は、高スループット実験と計算解析から得られた遺伝子リストをしばしば解釈する。
これは典型的には、遺伝子オントロジー(GO)のような知識ベース(KB)からのキュレートされたアサーションに基づいて、遺伝子またはそれらの性質に関連する生物学的機能用語の過剰または過小表現を測定する統計エンリッチメント解析として行われる。
遺伝子リストの解釈は、テキスト要約タスクとしてフレーム化され、Large Language Models (LLM) が利用可能になり、科学的なテキストを直接利用でき、KBへの依存を避けることができる。
本研究では,GPTモデルを用いて遺伝子セット関数の要約を行うSPINDOCTOR(Structured Prompt Interpolation of Natural Language Descriptions of Controlled Terms for Ontology Reporting)を開発した。
本手法では,(1) オントロジ的KBアノテーションから得られた構造化テキスト,(2) オントロジのない物語遺伝子要約,(3) 直接モデル検索など,遺伝子機能の異なる情報源を利用できる。
これらの手法は,遺伝子セットのGO項リストを,有用かつ生物学的に有効に作成できることを示す。
しかし、GPTベースのアプローチでは、信頼できるスコアやp値が得られず、統計的に重要でない項を返すこともしばしばある。
重要な点として、これらの方法が標準的なエンリッチメントから最も正確で情報的な用語を再結合することは滅多になかった。
結果は極めて非決定論的であり、わずかに異なる用語リストが生じる。
この結果から, LLM を用いた手法は, 標準項濃縮分析の代替として不適であり, オントロジ的アサーションのマニュアルキュレーションは依然として必要であることが示唆された。
関連論文リスト
- Long-range gene expression prediction with token alignment of large language model [37.10820914895689]
本稿では,遺伝子配列の特徴を自然言語トークンと整合させる遺伝子配列Token Alignment(GTA)を提案する。
GTAは規制文法を学習し、遺伝子特異的な人間のアノテーションをプロンプトとして組み込むことができる。
GTAは、事前訓練された言語モデルを利用して、遺伝子発現予測に対する強力で斬新なクロスモーダルなアプローチを示す。
論文 参考訳(メタデータ) (2024-10-02T02:42:29Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Evaluation of large language models for discovery of gene set function [0.8864741602534821]
5つの大規模言語モデル (LLM) を, 遺伝子セットで表される共通の生物学的機能を発見する能力について評価した。
遺伝子オントロジーの標準遺伝子セットに対するベンチマークでは、GPT-4はキュレートされた名前やより一般的な概念を確実に回収した。
オミクスデータから得られた遺伝子セットでは、GPT-4は古典的な機能強化によって報告されていない新しい機能を同定した。
論文 参考訳(メタデータ) (2023-09-07T21:10:48Z) - DynGFN: Towards Bayesian Inference of Gene Regulatory Networks with
GFlowNets [81.75973217676986]
遺伝子調節ネットワーク(GRN)は、遺伝子発現と細胞機能を制御する遺伝子とその産物間の相互作用を記述する。
既存の方法は、チャレンジ(1)、ダイナミックスから循環構造を識別すること、あるいはチャレンジ(2)、DAGよりも複雑なベイズ後部を学習することに焦点を当てるが、両方ではない。
本稿では、RNAベロシティ技術を用いて遺伝子発現の「速度」を推定できるという事実を活用し、両方の課題に対処するアプローチを開発する。
論文 参考訳(メタデータ) (2023-02-08T16:36:40Z) - Machine Learning Methods for Cancer Classification Using Gene Expression
Data: A Review [77.34726150561087]
がんは心臓血管疾患の2番目の死因である。
遺伝子発現は癌の早期発見において基本的な役割を担っている。
本研究は,機械学習を用いた癌分類における遺伝子発現解析の最近の進歩を概説する。
論文 参考訳(メタデータ) (2023-01-28T15:03:03Z) - A single-cell gene expression language model [2.9112649816695213]
遺伝子間のコンテキスト依存を学習する機械学習システムを提案する。
我々のモデルであるExceiverは、自己教師型タスクを用いて、多様な細胞タイプで訓練されている。
生物学的アノテーションに関して,潜在サンプル表現の類似性プロファイルと学習された遺伝子埋め込みとの間に一致が認められた。
論文 参考訳(メタデータ) (2022-10-25T20:52:19Z) - Granger causal inference on DAGs identifies genomic loci regulating
transcription [77.58911272503771]
GrID-Netは、DBG構造化システムにおけるGranger因果推論のためのラタグメッセージパッシングを備えたグラフニューラルネットワークに基づくフレームワークである。
我々の応用は、特定の遺伝子の調節を仲介するゲノム座を同定する単一セルマルチモーダルデータの解析である。
論文 参考訳(メタデータ) (2022-10-18T21:15:10Z) - Natural language processing for clusterization of genes according to
their functions [62.997667081978825]
本稿では,数千の遺伝子の解析を減らし,複数のクラスタの解析を行うアプローチを提案する。
これらの記述は、事前訓練された言語モデル(BERT)といくつかのテキスト処理アプローチを用いてベクトルとして符号化される。
論文 参考訳(メタデータ) (2022-07-17T12:59:34Z) - Mining Functionally Related Genes with Semi-Supervised Learning [0.0]
我々は、豊富な機能セットを導入し、半教師付き学習アプローチとともにそれらを使用する。
正およびラベルなし例(LPU)による学習の枠組みは機能的関連遺伝子のマイニングに特に適していることが示されている。
論文 参考訳(メタデータ) (2020-11-05T20:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。