論文の概要: DrugAssist: A Large Language Model for Molecule Optimization
- arxiv url: http://arxiv.org/abs/2401.10334v1
- Date: Thu, 28 Dec 2023 10:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-28 16:23:30.688386
- Title: DrugAssist: A Large Language Model for Molecule Optimization
- Title(参考訳): DrugAssist: 分子最適化のための大規模言語モデル
- Authors: Geyan Ye, Xibao Cai, Houtim Lai, Xing Wang, Junhong Huang, Longyue
Wang, Wei Liu, Xiangxiang Zeng
- Abstract要約: DrugAssistは、人間と機械の対話を通じて最適化を行う対話型分子最適化モデルである。
DrugAssistは、単一および複数プロパティの最適化において、主要な結果を得た。
分子最適化タスクの微調整言語モデルのための,MomoOpt-Instructionsと呼ばれる大規模命令ベースデータセットを公開している。
- 参考スコア(独自算出の注目度): 29.95488215594247
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, the impressive performance of large language models (LLMs) on a
wide range of tasks has attracted an increasing number of attempts to apply
LLMs in drug discovery. However, molecule optimization, a critical task in the
drug discovery pipeline, is currently an area that has seen little involvement
from LLMs. Most of existing approaches focus solely on capturing the underlying
patterns in chemical structures provided by the data, without taking advantage
of expert feedback. These non-interactive approaches overlook the fact that the
drug discovery process is actually one that requires the integration of expert
experience and iterative refinement. To address this gap, we propose
DrugAssist, an interactive molecule optimization model which performs
optimization through human-machine dialogue by leveraging LLM's strong
interactivity and generalizability. DrugAssist has achieved leading results in
both single and multiple property optimization, simultaneously showcasing
immense potential in transferability and iterative optimization. In addition,
we publicly release a large instruction-based dataset called
MolOpt-Instructions for fine-tuning language models on molecule optimization
tasks. We have made our code and data publicly available at
https://github.com/blazerye/DrugAssist, which we hope to pave the way for
future research in LLMs' application for drug discovery.
- Abstract(参考訳): 近年,多種多様なタスクにおける大規模言語モデル(LLM)の印象的な性能は,薬物発見にLLMを適用しようとする試みが増えている。
しかしながら、分子最適化は、薬物発見パイプラインにおいて重要な課題であり、現在、LSMにはほとんど関与していない領域である。
既存のアプローチのほとんどは、専門家のフィードバックを生かさずに、データによって提供される化学構造の基本パターンのみを捉えることに重点を置いている。
これらの非相互作用的なアプローチは、薬物発見プロセスが専門家の経験と反復的改善の統合を必要とするものであるという事実を見落としている。
このギャップに対処するために,LSMの強い相互作用性と一般化性を活用し,人間と機械の対話を通して最適化を行う対話型分子最適化モデルであるDragonAssistを提案する。
DrugAssistは、単一および複数プロパティの最適化において主要な成果を上げ、同時にトランスファービリティと反復最適化の潜在的な可能性を示している。
さらに,分子最適化タスクの微調整言語モデルに対して,MomoOpt-Instructionsと呼ばれる大規模な命令ベースデータセットを公開している。
我々のコードとデータはhttps://github.com/blazerye/DrugAssistで公開されています。
関連論文リスト
- Benchmarking Large Language Models for Molecule Prediction Tasks [7.067145619709089]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクの最前線にある。
LLMは分子予測タスクを効果的に扱えるのか?
6つの標準分子データセットの分類および回帰予測タスクを同定する。
テキストベースのモデルと、分子の幾何学的構造を分析するために特別に設計されたモデルを含む、既存の機械学習(ML)モデルと比較する。
論文 参考訳(メタデータ) (2024-03-08T05:59:56Z) - Large Language Models to Enhance Bayesian Optimization [57.474613739645605]
本稿では,大規模言語モデル(LLM)の能力をベイズ最適化に組み込む新しいアプローチであるLLAMBOを提案する。
高いレベルでは、自然言語のBO問題を枠組み化し、LLMが歴史的評価に照らした有望な解を反復的に提案し、評価することを可能にする。
以上の結果から,LLAMBOはゼロショットウォームスタートに有効であり,サロゲートモデリングや候補サンプリングの促進,特に観察が不十分な場合の探索の初期段階において有効であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T11:44:06Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - InstructMol: Multi-Modal Integration for Building a Versatile and
Reliable Molecular Assistant in Drug Discovery [19.870192393785043]
LLM(Large Language Models)は、複雑な分子データとの相互作用の再構築を約束する。
我々の新しい貢献であるInstructMolは、インストラクションチューニングアプローチを通じて、分子構造と自然言語を効果的に整合させる。
InstructMolは、薬物発見関連分子タスクの大幅なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-11-27T16:47:51Z) - Connecting Large Language Models with Evolutionary Algorithms Yields
Powerful Prompt Optimizers [70.18534453485849]
EvoPromptは離散的なプロンプト最適化のためのフレームワークである。
進化的アルゴリズム(EA)の概念は、優れた性能と高速収束を示すものである。
人為的なプロンプトと既存の方法で自動プロンプト生成を著しく上回っている。
論文 参考訳(メタデータ) (2023-09-15T16:50:09Z) - Machine Learning Small Molecule Properties in Drug Discovery [44.62264781248437]
我々は, 結合親和性, 溶解性, ADMET (吸収, 分布, 代謝, 排出, 毒性) を含む幅広い特性について検討する。
化学指紋やグラフベースニューラルネットワークなど,既存の一般的な記述子や埋め込みについて論じる。
最後に、モデル予測の理解を提供する技術、特に薬物発見における重要な意思決定について評価する。
論文 参考訳(メタデータ) (2023-08-02T22:18:41Z) - Improving Small Language Models on PubMedQA via Generative Data
Augmentation [4.96649519549027]
大規模言語モデル (LLM) は自然言語処理の分野で顕著な進歩を遂げている。
小型言語モデル(SLM)はその効率で知られているが、限られた能力と訓練データに悩まされることが多い。
医療領域におけるSLMの改善を目的とした,LLMに基づく生成データ拡張を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-12T23:49:23Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - CASTELO: Clustered Atom Subtypes aidEd Lead Optimization -- a combined
machine learning and molecular modeling method [2.8381402107366034]
我々は、リード最適化ワークフローを自動化する機械学習と分子モデリングを組み合わせたアプローチを提案する。
本手法は, 薬剤の有効性向上に有効な, ホットスポットの新規なヒントを提供する。
論文 参考訳(メタデータ) (2020-11-27T15:41:00Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [66.84839948236478]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。