論文の概要: Comparative Performance Evaluation of Large Language Models for Extracting Molecular Interactions and Pathway Knowledge
- arxiv url: http://arxiv.org/abs/2307.08813v3
- Date: Wed, 09 Apr 2025 19:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:11.080997
- Title: Comparative Performance Evaluation of Large Language Models for Extracting Molecular Interactions and Pathway Knowledge
- Title(参考訳): 分子間相互作用と経路知識抽出のための大規模言語モデルの比較性能評価
- Authors: Gilchan Park, Byung-Jun Yoon, Xihaier Luo, Vanessa López-Marrero, Shinjae Yoo, Shantenu Jha,
- Abstract要約: 大型言語モデル(LLM)は、関心の経路に関連する遺伝子やタンパク質を同定することができる。
LLMは関心の経路に関連する遺伝子やタンパク質を同定し、その相互作用をある程度予測することができる。
- 参考スコア(独自算出の注目度): 5.893494985371817
- License:
- Abstract: Background Identification of the interactions and regulatory relations between biomolecules play pivotal roles in understanding complex biological systems and the mechanisms underlying diverse biological functions. However, the collection of such molecular interactions has heavily relied on expert curation in the past, making it labor-intensive and time-consuming. To mitigate these challenges, we propose leveraging the capabilities of large language models (LLMs) to automate genome-scale extraction of this crucial knowledge. Results In this study, we investigate the efficacy of various LLMs in addressing biological tasks, such as the recognition of protein interactions, identification of genes linked to pathways affected by low-dose radiation, and the delineation of gene regulatory relationships. Overall, the larger models exhibited superior performance, indicating their potential for specific tasks that involve the extraction of complex interactions among genes and proteins. Although these models possessed detailed information for distinct gene and protein groups, they faced challenges in identifying groups with diverse functions and in recognizing highly correlated gene regulatory relationships. Conclusions By conducting a comprehensive assessment of the state-of-the-art models using well-established molecular interaction and pathway databases, our study reveals that LLMs can identify genes/proteins associated with pathways of interest and predict their interactions to a certain extent. Furthermore, these models can provide important insights, marking a noteworthy stride toward advancing our understanding of biological systems through AI-assisted knowledge discovery.
- Abstract(参考訳): 生体分子間の相互作用と規制関係の背景的同定は、複雑な生体系を理解する上で重要な役割を担っている。
しかし、そのような分子相互作用の収集は、過去に専門家のキュレーションに大きく依存しており、労働集約的で時間を要する。
これらの課題を軽減するため、我々は、この重要な知識のゲノムスケール抽出を自動化するために、大規模言語モデル(LLM)の機能を活用することを提案する。
本研究では, タンパク質相互作用の認識, 低線量放射線による経路関連遺伝子の同定, および遺伝子制御関係の解明など, 生物学的課題に対処するための様々なLDMの有効性について検討した。
全体として、より大きなモデルは優れた性能を示し、遺伝子とタンパク質間の複雑な相互作用の抽出を含む特定のタスクの可能性を示した。
これらのモデルは、異なる遺伝子群とタンパク質群の詳細な情報を持っていたが、多様な機能を持つグループを同定し、非常に相関の深い遺伝子制御関係を認識するという課題に直面した。
結論 確立された分子間相互作用と経路データベースを用いた最先端モデルの包括的評価を行うことにより,LLMが関心の経路に関連する遺伝子・タンパク質を同定し,その相互作用をある程度予測できることが判明した。
さらに、これらのモデルは重要な洞察を与え、AIによる知識発見を通じて生物学的システムの理解を深めるための重要な一歩をマークすることができる。
関連論文リスト
- COMET: Benchmark for Comprehensive Biological Multi-omics Evaluation Tasks and Language Models [56.81513758682858]
COMETは、シングルオミクス、クロスオミクス、マルチオミクスタスクのモデルを評価することを目的としている。
まず、我々は、DNA、RNA、タンパク質の主要な構造的および機能的側面をカバーする、下流タスクとデータセットの多様なコレクションをキュレートし、開発する。
そこで我々は,DNA,RNA,タンパク質の既存の基礎言語モデルと,新たに提案されたマルチオミクス法を評価する。
論文 参考訳(メタデータ) (2024-12-13T18:42:00Z) - Explainable AI Methods for Multi-Omics Analysis: A Survey [3.885941688264509]
マルチオミクス(multi-omics)とは、複数の「オム」から派生したデータの積分解析である。
深層学習の手法は、マルチオミクスデータの統合や、分子間相互作用の洞察、複雑な疾患の研究の強化にますます活用されている。
これらのモデルは、多くの相互接続層と非線形関係を持ち、しばしばブラックボックスとして機能し、意思決定プロセスにおける透明性を欠いている。
このレビューでは、マルチオミクス研究において、xAIが深層学習モデルの解釈可能性を改善する方法について検討し、臨床医に明確な洞察を与える可能性を強調した。
論文 参考訳(メタデータ) (2024-10-15T05:01:17Z) - Optimal Transport for Latent Integration with An Application to Heterogeneous Neuronal Activity Data [1.5311478638611091]
本稿では,複雑な生物学的プロセスにおいて共有パターンを抽出する最適なトランスポートに基づく,新しい異種データ統合フレームワークを提案する。
本手法は,少数の被験者でも有効であり,アライメントに補助的なマッチング情報を必要としない。
論文 参考訳(メタデータ) (2024-06-27T04:29:21Z) - Cognitive Evolutionary Learning to Select Feature Interactions for Recommender Systems [59.117526206317116]
Cellはさまざまなタスクやデータに対して,さまざまなモデルに適応的に進化可能であることを示す。
4つの実世界のデータセットの実験では、細胞は最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-05-29T02:35:23Z) - BioDiscoveryAgent: An AI Agent for Designing Genetic Perturbation Experiments [112.25067497985447]
そこで,BioDiscoveryAgentを紹介した。このエージェントは,新しい実験を設計し,その結果の理由を明らかにし,仮説空間を効率的にナビゲートし,望ましい解に到達させる。
BioDiscoveryAgentは、機械学習モデルをトレーニングすることなく、新しい実験を独自に設計することができる。
6つのデータセットで関連する遺伝的摂動を予測することで、平均21%の改善が達成されている。
論文 参考訳(メタデータ) (2024-05-27T19:57:17Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - Graph-Based Retriever Captures the Long Tail of Biomedical Knowledge [2.2814097119704058]
大規模言語モデル(LLM)は、膨大な知識を要約して提示することで、情報の検索方法を変えつつある。
LLMはトレーニングセットから最も頻繁に見られる情報を強調し、まれな情報を無視する傾向があります。
本稿では,これらのクラスタをダウンサンプリングし,情報過負荷問題を緩和するために知識グラフを活用する新しい情報検索手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:31:11Z) - Causal machine learning for single-cell genomics [94.28105176231739]
単細胞ゲノミクスへの機械学習技術の応用とその課題について論じる。
まず, 単一細胞生物学における現在の因果的アプローチの基盤となるモデルについて述べる。
次に、単一セルデータへの因果的アプローチの適用におけるオープンな問題を特定する。
論文 参考訳(メタデータ) (2023-10-23T13:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。