論文の概要: SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction
- arxiv url: http://arxiv.org/abs/2408.05696v1
- Date: Sun, 11 Aug 2024 04:53:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:57:51.980320
- Title: SMILES-Mamba: Chemical Mamba Foundation Models for Drug ADMET Prediction
- Title(参考訳): SMILES-Mamba:薬物ADMET予測のための化学マンバ基礎モデル
- Authors: Bohao Xu, Yingzhou Lu, Chenhao Li, Ling Yue, Xiao Wang, Nan Hao, Tianfan Fu, Jim Chen,
- Abstract要約: 小分子の薬物の吸収、分布、代謝、排出、毒性を予測することは安全性と有効性を確保するために重要である。
本稿では,ラベル付きデータとラベル付きデータの両方を活用する2段階モデルを提案する。
その結果,SMILES-Mambaは22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成した。
- 参考スコア(独自算出の注目度): 16.189335444981353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In drug discovery, predicting the absorption, distribution, metabolism, excretion, and toxicity (ADMET) properties of small-molecule drugs is critical for ensuring safety and efficacy. However, the process of accurately predicting these properties is often resource-intensive and requires extensive experimental data. To address this challenge, we propose SMILES-Mamba, a two-stage model that leverages both unlabeled and labeled data through a combination of self-supervised pretraining and fine-tuning strategies. The model first pre-trains on a large corpus of unlabeled SMILES strings to capture the underlying chemical structure and relationships, before being fine-tuned on smaller, labeled datasets specific to ADMET tasks. Our results demonstrate that SMILES-Mamba exhibits competitive performance across 22 ADMET datasets, achieving the highest score in 14 tasks, highlighting the potential of self-supervised learning in improving molecular property prediction. This approach not only enhances prediction accuracy but also reduces the dependence on large, labeled datasets, offering a promising direction for future research in drug discovery.
- Abstract(参考訳): 薬物発見において、小分子薬物の吸収、分布、代謝、排ガス、毒性(ADMET)特性を予測することは安全性と有効性を確保するために重要である。
しかし、これらの特性を正確に予測するプロセスは、しばしば資源集約であり、広範な実験データを必要とする。
この課題に対処するために,SMILES-Mambaを提案する。SMILES-Mambaは,ラベル付きデータとラベル付きデータの両方を,自己教師付き事前学習と微調整の組み合わせで活用する2段階モデルである。
モデルはまず、未ラベルのSMILES文字列の大きなコーパスで事前訓練を行い、基礎となる化学構造と関係を捉え、ADMETタスクに特化したラベル付きデータセットで微調整する。
SMILES-Mambaは,22のADMETデータセットの競合性能を示し,14のタスクで最高スコアを達成し,分子特性予測の改善における自己教師型学習の可能性を強調した。
このアプローチは予測精度を向上するだけでなく、大規模ラベル付きデータセットへの依存を減らし、将来的な薬物発見研究の方向性を示す。
関連論文リスト
- GramSeq-DTA: A grammar-based drug-target affinity prediction approach fusing gene expression information [1.2289361708127877]
薬物や標的の構造情報と化学摂動情報を統合するGramSeq-DTAを提案する。
我々の手法は、広く使われているDTAデータセットで検証された場合、現在の最先端のDTA予測モデルよりも優れている。
論文 参考訳(メタデータ) (2024-11-03T03:17:09Z) - Accelerating Drug Safety Assessment using Bidirectional-LSTM for SMILES Data [0.0]
Bi-Directional Long Short Term Memory (BiLSTM) は、入力分子配列を処理するリカレントニューラルネットワーク(RNN)の変種である。
提案した研究は、SMILES文字列にコードされたシーケンシャルパターンを理解することを目的としており、それによって分子の毒性を予測する。
論文 参考訳(メタデータ) (2024-07-08T18:12:11Z) - Impact of Domain Knowledge and Multi-Modality on Intelligent Molecular Property Prediction: A Systematic Survey [22.73437302209673]
様々なベンチマークに基づいて,近年のディープラーニング手法を検証,定量的に分析する。
分子情報の統合は、回帰処理と分類処理の両方において分子特性予測(MPP)を大幅に改善する。
また、1D SMILESによる2Dグラフの強化により、回帰タスクのマルチモーダル学習性能が最大9.1%向上し、3D情報による2Dグラフの増大により、分類タスクのパフォーマンスが最大13.2%向上することを発見した。
論文 参考訳(メタデータ) (2024-02-11T17:29:58Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for
AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise
Annotations [90.27736364704108]
我々は、AI支援薬物発見のための体系的なOODデータセットキュレーターおよびベンチマークであるTarmOODを提案する。
DrugOODには、ベンチマークプロセスを完全に自動化するオープンソースのPythonパッケージが付属している。
我々は、薬物標的結合親和性予測という、AIDDにおける最も重要な問題の1つに焦点を当てる。
論文 参考訳(メタデータ) (2022-01-24T12:32:48Z) - Taming Overconfident Prediction on Unlabeled Data from Hindsight [50.9088560433925]
ラベルのないデータに対する予測の不確実性を最小化することは、半教師付き学習において優れた性能を達成するための鍵となる要素である。
本稿では,アダプティブシャーニング(Adaptive Sharpening, ADS)と呼ばれる2つのメカニズムを提案する。
ADSは、プラグインにすることで最先端のSSLメソッドを大幅に改善する。
論文 参考訳(メタデータ) (2021-12-15T15:17:02Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。