論文の概要: DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery
- arxiv url: http://arxiv.org/abs/2505.13940v1
- Date: Tue, 20 May 2025 05:18:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.756212
- Title: DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery
- Title(参考訳): DrugPilot: LLMによる薬物発見のためのパラメータ化推論剤
- Authors: Kun Li, Zhennan Wu, Shoupeng Wang, Wenbin Hu,
- Abstract要約: DrugPilotは、薬物発見のためのパラメータ化推論を備えた大規模言語モデルである。
薬物発見パイプラインの主要なフェーズをサポートし、研究タスクの自動計画と実行を容易にする。
タスク完了率は98.0%、93.5%、64.0%である。
- 参考スコア(独自算出の注目度): 11.588325823566827
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the field of AI4Science, large-scale language models (LLMs) show great potential to parse complex scientific semantics, integrate cross-disciplinary knowledge, and assist critical task research. However, in the field of drug discovery, despite the optimization through professional data pre-training, context window expansion, and internet search, the existing LLMs are still facing challenges such as massive multi-modal and heterogeneous data processing, domain knowledge dynamic updating delay, and insufficient confidence in predicting the results of complex computational tasks. To address these challenges, we propose the DrugPilot, an LLM-based agent with parameterized reasoning for drug discovery. DrugPilot addresses key limitations of traditional end-to-end LLM prediction approaches through its parametric inference architecture. This agent system supports major phases of the drug discovery pipeline, facilitating automated planning and execution of multi-stage research tasks. To address the critical challenge of multi-modal drug data analysis (incorporating both public datasets and user-submitted data), we developed an interactive parameterized memory pool. This innovative component standardizes real-world drug data into parametric representations, simultaneously enabling efficient knowledge retrieval in multi-turn dialogue while mitigating the information loss inherent in text-based data transmission. Additionally, we created a drug instruct dataset across 8 essential drug discovery tasks for model fine-tuning and evaluation. Based on the Berkeley function calling evaluation framework, DrugPilot demonstrated the most advanced tool calling capabilities on our drug discovery tool instruction dataset, outperforming existing agents (e.g., ReAct, LoT). Specifically, it achieves task completion rates of 98.0%, 93.5%, and 64.0% on simple, multiple, and multi-turn tasks, respectively.
- Abstract(参考訳): AI4Scienceの分野では、大規模言語モデル(LLM)は、複雑な科学的意味論を解析し、学際的な知識を統合し、重要なタスク研究を支援する大きな可能性を示している。
しかし、薬物発見の分野では、専門的なデータ事前トレーニング、コンテキストウィンドウの拡張、インターネット検索による最適化にもかかわらず、既存のLSMは、大規模なマルチモーダルおよび異種データ処理、ドメイン知識の動的遅延遅延、複雑な計算タスクの結果の予測に不十分な信頼性といった課題に直面している。
これらの課題に対処するために,薬物発見のためのパラメタライズド推論を備えたLSMベースのエージェントであるDragonPilotを提案する。
DrugPilotは、パラメトリック推論アーキテクチャを通じて、従来のエンドツーエンドのLLM予測アプローチの重要な制限に対処する。
このエージェントシステムは、薬物発見パイプラインの主要なフェーズをサポートし、多段階の研究タスクの自動計画と実行を容易にする。
マルチモーダルな薬物データ分析(公開データセットとユーザ送信データの両方を取り入れた)の課題に対処するため,対話型パラメータ化メモリプールを開発した。
この革新的なコンポーネントは、実世界の薬物データをパラメトリック表現に標準化し、テキストベースのデータ送信に固有の情報損失を軽減しつつ、マルチターン対話における効率的な知識検索を可能にする。
さらに, モデル微調整と評価のために, 8つの重要な薬物発見タスクにまたがる薬物インストラクションデータセットを作成した。
DrugPilotは、バークレーの関数呼び出し評価フレームワークに基づいて、薬物発見ツールの命令データセット上で最も高度なツール呼び出し機能を示し、既存のエージェント(例えば、ReAct、LoT)を上回った。
具体的には、単純なタスク、複数タスク、マルチターンタスクにおいて、98.0%、93.5%、64.0%のタスク完了率を達成する。
関連論文リスト
- RAG-Enhanced Collaborative LLM Agents for Drug Discovery [28.025359322895905]
CLADDは、薬物発見タスクに適した、検索増強世代(RAG)内蔵のエージェントシステムである。
汎用LLMやドメイン固有のLLM、そして従来のディープラーニングのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-22T00:12:52Z) - Empowering Large Language Models in Wireless Communication: A Novel Dataset and Fine-Tuning Framework [81.29965270493238]
我々は,無線通信アプリケーションのための大規模言語モデル(LLM)の評価と微調整を目的とした,特殊なデータセットを開発した。
データセットには、真/偽と複数選択型を含む、さまざまなマルチホップ質問が含まれている。
本稿では,PVI(Pointwise V-Information)に基づく微調整手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T16:19:53Z) - DrugAgent: Automating AI-aided Drug Discovery Programming through LLM Multi-Agent Collaboration [24.65716292347949]
DrugAgentは、薬物発見タスクのための機械学習(ML)プログラミングを自動化するマルチエージェントフレームワークである。
以上の結果から,DragonAgentは最上位のベースラインを一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-24T03:06:59Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DrugAssist: A Large Language Model for Molecule Optimization [29.95488215594247]
DrugAssistは、人間と機械の対話を通じて最適化を行う対話型分子最適化モデルである。
DrugAssistは、単一および複数プロパティの最適化において、主要な結果を得た。
分子最適化タスクの微調整言語モデルのための,MomoOpt-Instructionsと呼ばれる大規模命令ベースデータセットを公開している。
論文 参考訳(メタデータ) (2023-12-28T10:46:56Z) - ImDrug: A Benchmark for Deep Imbalanced Learning in AI-aided Drug
Discovery [79.08833067391093]
現実世界の医薬品のデータセットは、しばしば高度に不均衡な分布を示す。
ImDrugはオープンソースのPythonライブラリを備えたベンチマークで、4つの不均衡設定、11のAI対応データセット、54の学習タスク、16のベースラインアルゴリズムで構成されています。
ドラッグ発見パイプラインの幅広い範囲にまたがる問題やソリューションに対して、アクセス可能でカスタマイズ可能なテストベッドを提供する。
論文 参考訳(メタデータ) (2022-09-16T13:35:57Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。