論文の概要: Utilizing Large Language Models in an iterative paradigm with domain feedback for molecule optimization
- arxiv url: http://arxiv.org/abs/2410.13147v6
- Date: Mon, 18 Nov 2024 15:41:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:22.558603
- Title: Utilizing Large Language Models in an iterative paradigm with domain feedback for molecule optimization
- Title(参考訳): 分子最適化のためのドメインフィードバックを用いた反復パラダイムにおける大規模言語モデルの利用
- Authors: Khiem Le, Nitesh V. Chawla,
- Abstract要約: 本稿では,シンプルなドメインフィードバックプロバイダである$textRe3$DFを提案する。
$textRe3$DFは、修飾分子が化学的に無効である場合、外部ツールキットRDKitを使用して分子幻覚を処理する。
20の単価目標に対して、$textRe3$DFは、それぞれ緩い(textttl)と厳格な(texttts)の閾値の下で、ヒット比を16.95%、20.76%向上させる。
- 参考スコア(独自算出の注目度): 21.293944661913386
- License:
- Abstract: Molecule optimization is a critical task in drug discovery to optimize desired properties of a given molecule through chemical modification. Despite Large Language Models (LLMs) holding the potential to efficiently simulate this task by using natural language to direct the optimization, straightforwardly utilizing them shows limited performance. In this work, we facilitate utilizing LLMs in an iterative paradigm by proposing a simple yet highly effective domain feedback provider, namely $\text{Re}^3$DF. In detail, $\text{Re}^3$DF harnesses an external toolkit, RDKit, to handle the molecule hallucination, if the modified molecule is chemically invalid. Otherwise, its desired properties are computed and compared to the original one, establishing reliable domain feedback with correct direction and distance towards the objective, followed by a retrieved example, to guide the LLM to refine the modified molecule. We conduct experiments across both single- and multi-property objectives with 2 thresholds, where $\text{Re}^3$DF shows significant improvements. Particularly, for 20 single-property objectives, $\text{Re}^3$DF enhances Hit ratio by 16.95% and 20.76% under loose (\texttt{l}) and strict (\texttt{s}) thresholds, respectively. For 32 multi-property objectives, $\text{Re}^3$DF enhances Hit ratio by 6.04% and 5.25%.
- Abstract(参考訳): 分子最適化は、化学修飾によって与えられた分子の望ましい性質を最適化する薬物発見において重要な課題である。
大きな言語モデル(LLM)は、自然言語を使って最適化を指示することで、このタスクを効率的にシミュレートする可能性を秘めているが、直接的に利用すると、性能は限られている。
本研究では,シンプルなドメインフィードバックプロバイダ,すなわち$\text{Re}^3$DFを提案することで,LCMを反復パラダイムで活用しやすくする。
詳しくは、$\text{Re}^3$DFは、修飾された分子が化学的に無効である場合、外部ツールキットRDKitを用いて分子幻覚を処理する。
そうでなければ、その望ましい性質は計算され、元の特性と比較され、目的に向かって正しい方向と距離で信頼できるドメインフィードバックが確立され、次に、LLMを誘導して修飾された分子を洗練させる。
2つのしきい値を持つ単目的と多目的の両方で実験を行い、$\text{Re}^3$DFは大幅な改善を示す。
特に、20個の単項目的に対して、$\text{Re}^3$DFは、それぞれ緩い(\textt{l})と厳密な(\texttt{s})しきい値の下で、ヒット比を16.95%、20.76%向上させる。
32の多目的に対して、$\text{Re}^3$DFはヒット率を6.04%と5.25%向上させる。
関連論文リスト
- $\mathtt{GeLLM^3O}$: Generalizing Large Language Models for Multi-property Molecule Optimization [2.152507712409726]
大規模言語モデル(LLM)は、新しいタスクに対するドメイン外の顕著な一般化性を示す。
我々は、複雑なマルチプロパティ分子最適化タスクに特化して、最初の高品質な命令チューニングデータセットである$mathttMoMUInstruct$を紹介した。
$mathttGeLLM3O$sは一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-19T03:14:11Z) - DrugImproverGPT: A Large Language Model for Drug Optimization with Fine-Tuning via Structured Policy Optimization [53.27954325490941]
大規模言語モデル(LLM)の微調整は、特定の目的に向けて結果を生成するために不可欠である。
本研究は,薬物最適化LSMに基づく生成モデルを微調整するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-11T04:00:21Z) - Automatic Annotation Augmentation Boosts Translation between Molecules and Natural Language [7.458295743918249]
本稿では,Language-based Automatic AugmentationフレームワークであるLA$3$を紹介した。
LA$3$の有効性を示すために、LaChEBI-20という拡張データセットを作成し、確立したデータセットから分子のアノテーションを書き換える。
ベンチマークアーキテクチャに基づいてLaMolT5をトレーニングし、分子表現と拡張アノテーションのマッピングを学習する。
論文 参考訳(メタデータ) (2025-02-10T16:29:21Z) - Text-Guided Multi-Property Molecular Optimization with a Diffusion Language Model [77.50732023411811]
変換器を用いた拡散言語モデル(TransDLM)を用いたテキスト誘導多目的分子最適化手法を提案する。
TransDLMは標準化された化学命名法を分子の意味表現として利用し、プロパティ要求をテキスト記述に暗黙的に埋め込む。
提案手法は, 分子構造類似性を最適化し, ベンチマークデータセットの化学的特性を向上するための最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-10-17T14:30:27Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - DrugAssist: A Large Language Model for Molecule Optimization [29.95488215594247]
DrugAssistは、人間と機械の対話を通じて最適化を行う対話型分子最適化モデルである。
DrugAssistは、単一および複数プロパティの最適化において、主要な結果を得た。
分子最適化タスクの微調整言語モデルのための,MomoOpt-Instructionsと呼ばれる大規模命令ベースデータセットを公開している。
論文 参考訳(メタデータ) (2023-12-28T10:46:56Z) - Optimizing Molecules using Efficient Queries from Property Evaluations [66.66290256377376]
汎用的なクエリベースの分子最適化フレームワークであるQMOを提案する。
QMOは効率的なクエリに基づいて入力分子の所望の特性を改善する。
QMOは, 有機分子を最適化するベンチマークタスクにおいて, 既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-03T18:51:18Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。