論文の概要: GP-GPT: Large Language Model for Gene-Phenotype Mapping
- arxiv url: http://arxiv.org/abs/2409.09825v1
- Date: Sun, 15 Sep 2024 18:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 17:20:56.602454
- Title: GP-GPT: Large Language Model for Gene-Phenotype Mapping
- Title(参考訳): GP-GPT:遺伝子フェノタイプマッピングのための大規模言語モデル
- Authors: Yanjun Lyu, Zihao Wu, Lu Zhang, Jing Zhang, Yiwei Li, Wei Ruan, Zhengliang Liu, Xiaowei Yu, Chao Cao, Tong Chen, Minheng Chen, Yan Zhuang, Xiang Li, Rongjie Liu, Chao Huang, Wentao Li, Tianming Liu, Dajiang Zhu,
- Abstract要約: GP-GPTは、遺伝的・フェノタイプ知識表現とゲノム関連解析のための最初の専門的な大規模言語モデルである。
我々のモデルは、ゲノム学、遺伝学、科学出版物において3000,000以上の用語からなる包括的コーパスで2段階にわたって微調整されている。
- 参考スコア(独自算出の注目度): 44.12550855245415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large language models(LLMs) have attracted increasing attention in biomedical domains due to their success in natural language processing. However, the complex traits and heterogeneity of multi-sources genomics data pose significant challenges when adapting these models to the bioinformatics and biomedical field. To address these challenges, we present GP-GPT, the first specialized large language model for genetic-phenotype knowledge representation and genomics relation analysis. Our model is fine-tuned in two stages on a comprehensive corpus composed of over 3,000,000 terms in genomics, proteomics, and medical genetics, derived from multiple large-scale validated datasets and scientific publications. GP-GPT demonstrates proficiency in accurately retrieving medical genetics information and performing common genomics analysis tasks, such as genomics information retrieval and relationship determination. Comparative experiments across domain-specific tasks reveal that GP-GPT outperforms state-of-the-art LLMs, including Llama2, Llama3 and GPT-4. These results highlight GP-GPT's potential to enhance genetic disease relation research and facilitate accurate and efficient analysis in the fields of genomics and medical genetics. Our investigation demonstrated the subtle changes of bio-factor entities' representations in the GP-GPT, which suggested the opportunities for the application of LLMs to advancing gene-phenotype research.
- Abstract(参考訳): 生物医学領域では, 自然言語処理の成功により, 事前学習型大規模言語モデル (LLM) が注目されている。
しかし、マルチソースゲノムデータの複雑な特性と不均一性は、これらのモデルをバイオインフォマティクスやバイオメディカル分野に適用する際に大きな課題を生じさせる。
これらの課題に対処するため、GP-GPTは、遺伝的・フェノタイプ知識表現とゲノム関係解析のための最初の専門的な大規模言語モデルである。
本モデルは, ゲノム学, プロテオミクス, 医学遺伝学において3,000,000以上の用語からなる包括的コーパス上で, 大規模に検証された複数のデータセットと学術出版物から得られた2段階の微調整を行った。
GP-GPTは、医学遺伝情報を正確に取得し、ゲノム情報検索や関係決定などの一般的なゲノム解析タスクを実行する能力を示す。
ドメイン固有のタスクの比較実験により、GP-GPTはLlama2、Llama3、GPT-4といった最先端のLLMよりも優れていた。
これらの結果は、GP-GPTが遺伝子疾患研究を強化し、ゲノム学と医学遺伝学の分野における正確かつ効率的な分析を促進する可能性を強調している。
本研究はGP-GPTにおける生体因子の表現の微妙な変化を実証し,遺伝子フェノタイプ研究へのLLMの適用の可能性を示した。
関連論文リスト
- Integrating Large Language Models for Genetic Variant Classification [12.244115429231888]
大型言語モデル (LLM) は遺伝学においてトランスフォーメーションツールとして登場した。
本研究では,GPN-MSA,ESM1b,AlphaMissenseを含む最先端LLMの統合について検討した。
提案手法は,よく注釈付けされたProteinGymとClinVarのデータセットを用いて,これらの統合モデルを評価する。
論文 参考訳(メタデータ) (2024-11-07T13:45:56Z) - Interpreting artificial neural networks to detect genome-wide association signals for complex traits [0.0]
複雑な疾患の遺伝的アーキテクチャを調べることは、遺伝的および環境要因の高度にポリジェニックでインタラクティブな景観のために困難である。
我々は、シミュレーションと実際のジェノタイプ/フェノタイプデータセットの両方を用いて、複雑な特性を予測するために、人工ニューラルネットワークを訓練した。
論文 参考訳(メタデータ) (2024-07-26T15:20:42Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks [68.39821375903591]
汎用AIは、さまざまなデータ型を解釈する汎用性のために、制限に対処する可能性を秘めている。
本稿では,最初のオープンソースかつ軽量な視覚言語基盤モデルであるBiomedGPTを提案する。
論文 参考訳(メタデータ) (2023-05-26T17:14:43Z) - Cancer-inspired Genomics Mapper Model for the Generation of Synthetic
DNA Sequences with Desired Genomics Signatures [0.0]
がんに触発されたゲノムマッパーモデル(CGMM)は、遺伝的アルゴリズム(GA)とディープラーニング(DL)の手法を組み合わせたものである。
我々はCGMMが、祖先や癌などの選択された表現型の合成ゲノムを生成できることを実証した。
論文 参考訳(メタデータ) (2023-05-01T07:16:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。