論文の概要: Token-Mol 1.0: Tokenized drug design with large language model
- arxiv url: http://arxiv.org/abs/2407.07930v1
- Date: Wed, 10 Jul 2024 07:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 21:58:43.536703
- Title: Token-Mol 1.0: Tokenized drug design with large language model
- Title(参考訳): Token-Mol 1.0:大規模言語モデルによるTokenized Drug Design
- Authors: Jike Wang, Rui Qin, Mingyang Wang, Meijing Fang, Yangyang Zhang, Yuchen Zhu, Qun Su, Qiaolin Gou, Chao Shen, Odin Zhang, Zhenxing Wu, Dejun Jiang, Xujun Zhang, Huifeng Zhao, Xiaozhe Wan, Zhourui Wu, Liwei Liu, Yu Kang, Chang-Yu Hsieh, Tingjun Hou,
- Abstract要約: Token-Molはトークンのみの3Dドラッグデザインモデルで、2Dや3D構造を含む全ての分子情報をトークンにエンコードする。
トランスデコーダアーキテクチャ上に構築され、ランダム因果マスキング技術を用いて訓練されている。
既存の分子事前学習モデルと比較して、Token-Molはより幅広い下流タスクを扱うのに優れた習熟度を示す。
- 参考スコア(独自算出の注目度): 10.258299488278514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant interests have recently risen in leveraging sequence-based large language models (LLMs) for drug design. However, most current applications of LLMs in drug discovery lack the ability to comprehend three-dimensional (3D) structures, thereby limiting their effectiveness in tasks that explicitly involve molecular conformations. In this study, we introduced Token-Mol, a token-only 3D drug design model. This model encodes all molecular information, including 2D and 3D structures, as well as molecular property data, into tokens, which transforms classification and regression tasks in drug discovery into probabilistic prediction problems, thereby enabling learning through a unified paradigm. Token-Mol is built on the transformer decoder architecture and trained using random causal masking techniques. Additionally, we proposed the Gaussian cross-entropy (GCE) loss function to overcome the challenges in regression tasks, significantly enhancing the capacity of LLMs to learn continuous numerical values. Through a combination of fine-tuning and reinforcement learning (RL), Token-Mol achieves performance comparable to or surpassing existing task-specific methods across various downstream tasks, including pocket-based molecular generation, conformation generation, and molecular property prediction. Compared to existing molecular pre-trained models, Token-Mol exhibits superior proficiency in handling a wider range of downstream tasks essential for drug design. Notably, our approach improves regression task accuracy by approximately 30% compared to similar token-only methods. Token-Mol overcomes the precision limitations of token-only models and has the potential to integrate seamlessly with general models such as ChatGPT, paving the way for the development of a universal artificial intelligence drug design model that facilitates rapid and high-quality drug design by experts.
- Abstract(参考訳): 近年、薬品設計にシーケンスベースの大規模言語モデル(LLM)を活用することに重要な関心が高まっている。
しかしながら、薬物発見におけるLLMの現在の応用のほとんどは三次元(3D)構造を理解する能力に欠けており、分子配座を明示的に含むタスクにおけるそれらの効果を制限している。
本研究ではトークンのみの3DドラッグデザインモデルであるToken-Molを紹介した。
このモデルは、2D構造や3D構造を含む全ての分子情報をトークンにエンコードし、薬物発見における分類および回帰タスクを確率論的予測問題に変換することにより、統一パラダイムによる学習を可能にする。
Token-Molはトランスフォーマーデコーダアーキテクチャ上に構築され、ランダム因果マスキング技術を用いて訓練されている。
さらに,回帰タスクの課題を克服するためのガウスクロスエントロピー(GCE)損失関数を提案し,連続数値の学習能力を大幅に向上させた。
微細チューニングと強化学習(RL)を組み合わせることで、ポケットベースの分子生成、コンフォメーション生成、分子特性予測など、さまざまな下流タスクで既存のタスク固有のメソッドに匹敵する、あるいは超越したパフォーマンスを実現する。
既存の分子前訓練モデルと比較して、東ケンモールは薬物設計に不可欠な幅広い下流タスクを扱う能力に優れていた。
特に,類似のトークンのみの手法と比較して,回帰タスクの精度を約30%向上させる。
Token-Molはトークンのみのモデルの精度の限界を克服し、ChatGPTのような一般的なモデルとシームレスに統合し、専門家による迅速かつ高品質なドラッグデザインを促進する汎用人工知能ドラッグデザインモデルを開発するための道を開く可能性がある。
関連論文リスト
- GraphXForm: Graph transformer for computer-aided molecular design with application to extraction [73.1842164721868]
本稿では,デコーダのみのグラフトランスフォーマアーキテクチャであるGraphXFormについて述べる。
液液抽出のための2つの溶媒設計課題について評価し,4つの最先端分子設計技術より優れていることを示した。
論文 参考訳(メタデータ) (2024-11-03T19:45:15Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models [0.0]
SMILES言語を対象とする13種のケミカル特異的トークン化剤を系統的に評価した。
I>smirk/i>と<i>smirk-gpe/i>の2つの新しいトークンを導入し,OpenSMILES仕様の全体を表す。
論文 参考訳(メタデータ) (2024-09-19T02:36:04Z) - YZS-model: A Predictive Model for Organic Drug Solubility Based on Graph Convolutional Networks and Transformer-Attention [9.018408514318631]
伝統的な手法は複雑な分子構造を見逃し、不正確な結果をもたらすことが多い。
本稿では,グラフ畳み込みネットワーク(GCN),トランスフォーマーアーキテクチャ,Long Short-Term Memory(LSTM)ネットワークを統合するディープラーニングフレームワークであるYZS-Modelを紹介する。
YZS-Modelは、R2$ 0.59、RMSE$ 0.57を達成し、ベンチマークモデルを上回った。
論文 参考訳(メタデータ) (2024-06-27T12:40:29Z) - Discovering intrinsic multi-compartment pharmacometric models using Physics Informed Neural Networks [0.0]
我々は、純粋にデータ駆動型ニューラルネットワークモデルであるPKINNを紹介する。
PKINNは、本質的なマルチコンパートメントベースの薬理学構造を効率的に発見し、モデル化する。
得られたモデルは、シンボリック回帰法によって解釈可能であり、説明可能である。
論文 参考訳(メタデータ) (2024-04-30T19:31:31Z) - Molecule Design by Latent Prompt Transformer [76.2112075557233]
本研究は、分子設計の課題を条件付き生成モデリングタスクとしてフレーミングすることによって検討する。
本研究では,(1)学習可能な事前分布を持つ潜伏ベクトル,(2)プロンプトとして潜伏ベクトルを用いる因果トランスフォーマーに基づく分子生成モデル,(3)潜在プロンプトを用いた分子の目標特性および/または制約値を予測する特性予測モデルからなる新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:33:23Z) - Integrating Chemical Language and Molecular Graph in Multimodal Fused Deep Learning for Drug Property Prediction [9.388979080270103]
分子表現の異なる多モード深層学習モデルを構築した。
モノモーダルモデルと比較すると,マルチモーダルフューズドディープラーニング(MMFDL)モデルは単一モデルよりも精度,信頼性,耐雑音性に優れている。
論文 参考訳(メタデータ) (2023-12-29T07:19:42Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。