論文の概要: RAG-Enhanced Collaborative LLM Agents for Drug Discovery
- arxiv url: http://arxiv.org/abs/2502.17506v2
- Date: Mon, 10 Mar 2025 12:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:43:19.585598
- Title: RAG-Enhanced Collaborative LLM Agents for Drug Discovery
- Title(参考訳): RAGによる薬物発見のためのLLM剤の開発
- Authors: Namkyeong Lee, Edward De Brouwer, Ehsan Hajiramezanali, Tommaso Biancalani, Chanyoung Park, Gabriele Scalia,
- Abstract要約: CLADDは、薬物発見タスクに適した、検索増強世代(RAG)内蔵のエージェントシステムである。
汎用LLMやドメイン固有のLLM、そして従来のディープラーニングのアプローチよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 28.025359322895905
- License:
- Abstract: Recent advances in large language models (LLMs) have shown great potential to accelerate drug discovery. However, the specialized nature of biochemical data often necessitates costly domain-specific fine-tuning, posing critical challenges. First, it hinders the application of more flexible general-purpose LLMs in cutting-edge drug discovery tasks. More importantly, it impedes the rapid integration of the vast amounts of scientific data continuously generated through experiments and research. To investigate these challenges, we propose CLADD, a retrieval-augmented generation (RAG)-empowered agentic system tailored to drug discovery tasks. Through the collaboration of multiple LLM agents, CLADD dynamically retrieves information from biomedical knowledge bases, contextualizes query molecules, and integrates relevant evidence to generate responses -- all without the need for domain-specific fine-tuning. Crucially, we tackle key obstacles in applying RAG workflows to biochemical data, including data heterogeneity, ambiguity, and multi-source integration. We demonstrate the flexibility and effectiveness of this framework across a variety of drug discovery tasks, showing that it outperforms general-purpose and domain-specific LLMs as well as traditional deep learning approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、薬物発見を加速する大きな可能性を示している。
しかし、バイオケミカルデータの特殊な性質は、しばしば高価なドメイン固有の微調整を必要とし、重要な課題を提起する。
第一に、最先端の薬物発見タスクにおけるより柔軟な汎用LSMの適用を妨げる。
さらに重要なのは、実験や研究を通じて連続的に生成される膨大な量の科学データの迅速な統合を妨げることだ。
これらの課題を解明するために,薬物発見タスクに適した検索強化世代(RAG)を組み込んだエージェントシステムであるCLADDを提案する。
複数のLDMエージェントのコラボレーションを通じて、CLADDはバイオメディカル知識ベースから情報を動的に取得し、クエリ分子をコンテキスト化し、関連するエビデンスを統合してレスポンスを生成する。
重要なことは、RAGワークフローを生化学的データに適用する際の重要な障害に取り組み、その中には、データの異質性、曖昧性、マルチソース統合が含まれる。
薬物発見タスクにおけるこのフレームワークの柔軟性と有効性を示し、汎用性やドメイン固有のLCMや従来のディープラーニングアプローチよりも優れていることを示す。
関連論文リスト
- Knowledge Hierarchy Guided Biological-Medical Dataset Distillation for Domain LLM Training [10.701353329227722]
学術文献から高品質なテキストトレーニングデータの蒸留を自動化する枠組みを提案する。
われわれのアプローチは、バイオメディカル領域とより密接に一致した質問を自己評価し、生成する。
本手法は,生命科学領域の事前学習モデルと比較して,質問応答タスクを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-25T07:20:44Z) - Biology Instructions: A Dataset and Benchmark for Multi-Omics Sequence Understanding Capability of Large Language Models [51.316001071698224]
本稿では,生物配列関連命令チューニングデータセットであるBiology-Instructionsを紹介する。
このデータセットは、大きな言語モデル(LLM)と複雑な生物学的シーケンスに関連するタスクのギャップを埋めることができます。
また、新たな3段階トレーニングパイプラインを備えたChatMultiOmicsという強力なベースラインも開発しています。
論文 参考訳(メタデータ) (2024-12-26T12:12:23Z) - Exploring Multi-Modal Integration with Tool-Augmented LLM Agents for Precise Causal Discovery [45.777770849667775]
因果推論は、スマートヘルス、薬物発見のためのAI、AIOpsなど、ドメイン間の意思決定の必須基盤である。
ツール拡張 LLM を利用したマルチエージェントシステムである MATMCD を紹介する。
以上の結果から,マルチモーダル化による因果発見の可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-18T09:50:00Z) - A Review on Scientific Knowledge Extraction using Large Language Models in Biomedical Sciences [1.8308043661908204]
本稿では,生物医学領域における大規模言語モデル(LLM)の最先端応用について概説する。
LLMは、幻覚、文脈理解、一般化する能力など、大きな可能性を秘めているが、大きな課題が残っている。
我々は、医療文献へのアクセスを改善し、医療における有意義な発見を促進することを目的としている。
論文 参考訳(メタデータ) (2024-12-04T18:26:13Z) - Y-Mol: A Multiscale Biomedical Knowledge-Guided Large Language Model for Drug Development [24.5979645373074]
Y-Mol は知識誘導型 LLM であり、鉛化合物発見、プリクリニック、クリニック予測といったタスクをこなすように設計されている。
出版物、知識グラフ、専門家が設計した合成データから学習する。
Y-Molは、鉛化合物の発見、分子特性の予測、薬物相互作用のイベントの同定において、汎用LLMよりも著しく優れている。
論文 参考訳(メタデータ) (2024-10-15T12:39:20Z) - Large Language Models in Drug Discovery and Development: From Disease Mechanisms to Clinical Trials [49.19897427783105]
大規模言語モデル(LLM)の創薬・開発分野への統合は、重要なパラダイムシフトである。
これらの先進的な計算モデルが、ターゲット・ディスリーズ・リンクを明らかにし、複雑なバイオメディカルデータを解釈し、薬物分子設計を強化し、薬物の有効性と安全性を予測し、臨床治験プロセスを促進する方法について検討する。
論文 参考訳(メタデータ) (2024-09-06T02:03:38Z) - LLMs are not Zero-Shot Reasoners for Biomedical Information Extraction [13.965777046473885]
大規模言語モデル(LLM)は、医療分野のアプリケーションにますます採用されている。
LLMがバイオメディカル領域で伝統的に追求されるタスクでどの程度うまく機能するかは不明である。
論文 参考訳(メタデータ) (2024-08-22T09:37:40Z) - An Evaluation of Large Language Models in Bioinformatics Research [52.100233156012756]
本研究では,大規模言語モデル(LLM)の性能について,バイオインフォマティクスの幅広い課題について検討する。
これらのタスクには、潜在的なコーディング領域の同定、遺伝子とタンパク質の命名されたエンティティの抽出、抗微生物および抗がんペプチドの検出、分子最適化、教育生物情報学問題の解決が含まれる。
以上の結果から, GPT 変種のような LLM がこれらのタスクの多くをうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2024-02-21T11:27:31Z) - ProBio: A Protocol-guided Multimodal Dataset for Molecular Biology Lab [67.24684071577211]
研究結果を複製するという課題は、分子生物学の分野に重大な障害をもたらしている。
まず、この目的に向けた最初のステップとして、ProBioという名前の包括的なマルチモーダルデータセットをキュレートする。
次に、透明なソリューショントラッキングとマルチモーダルなアクション認識という2つの挑戦的なベンチマークを考案し、BioLab設定におけるアクティビティ理解に関連する特徴と難しさを強調した。
論文 参考訳(メタデータ) (2023-11-01T14:44:01Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Discovering Drug-Target Interaction Knowledge from Biomedical Literature [107.98712673387031]
人体における薬物と標的(DTI)の相互作用は、生物医学や応用において重要な役割を担っている。
毎年何百万もの論文がバイオメディカル分野で出回っているので、文学からDTIの知識を自動的に発見することは、業界にとって急激な需要となっている。
生成的アプローチを用いて,この課題に対する最初のエンドツーエンドソリューションについて検討する。
我々はDTI三重項をシーケンスとみなし、Transformerベースのモデルを使ってエンティティや関係の詳細なアノテーションを使わずに直接生成する。
論文 参考訳(メタデータ) (2021-09-27T17:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。