論文の概要: S-MolSearch: 3D Semi-supervised Contrastive Learning for Bioactive Molecule Search
- arxiv url: http://arxiv.org/abs/2409.07462v2
- Date: Thu, 21 Nov 2024 08:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:15:37.620737
- Title: S-MolSearch: 3D Semi-supervised Contrastive Learning for Bioactive Molecule Search
- Title(参考訳): S-MolSearch:生物活性分子探索のための3次元半教師付きコントラスト学習
- Authors: Gengmo Zhou, Zhen Wang, Feng Yu, Guolin Ke, Zhewei Wei, Zhifeng Gao,
- Abstract要約: 半教師付きコントラスト学習において,分子3次元情報と親和性情報を活用する最初のフレームワークであるS-MolSearchを提案する。
ラベル付きデータとラベルなしデータの両方を効率的に処理し、ラベルなしデータのソフトラベルを生成しながら分子構造エンコーダを訓練する。
S-MolSearchは、広く使われているLIT-PCBAとDUD-Eで優れた性能を示す。
- 参考スコア(独自算出の注目度): 30.071862398889774
- License:
- Abstract: Virtual Screening is an essential technique in the early phases of drug discovery, aimed at identifying promising drug candidates from vast molecular libraries. Recently, ligand-based virtual screening has garnered significant attention due to its efficacy in conducting extensive database screenings without relying on specific protein-binding site information. Obtaining binding affinity data for complexes is highly expensive, resulting in a limited amount of available data that covers a relatively small chemical space. Moreover, these datasets contain a significant amount of inconsistent noise. It is challenging to identify an inductive bias that consistently maintains the integrity of molecular activity during data augmentation. To tackle these challenges, we propose S-MolSearch, the first framework to our knowledge, that leverages molecular 3D information and affinity information in semi-supervised contrastive learning for ligand-based virtual screening. Drawing on the principles of inverse optimal transport, S-MolSearch efficiently processes both labeled and unlabeled data, training molecular structural encoders while generating soft labels for the unlabeled data. This design allows S-MolSearch to adaptively utilize unlabeled data within the learning process. Empirically, S-MolSearch demonstrates superior performance on widely-used benchmarks LIT-PCBA and DUD-E. It surpasses both structure-based and ligand-based virtual screening methods for AUROC, BEDROC and EF.
- Abstract(参考訳): 仮想スクリーニングは、膨大な分子ライブラリーから有望な薬物候補を特定することを目的とした、薬物発見の初期段階において不可欠な技術である。
近年、リガンドベースの仮想スクリーニングは、特定のタンパク質結合サイト情報に頼ることなく、広範囲のデータベーススクリーニングを実施できるという効果により、大きな注目を集めている。
錯体に対する結合親和性データを得ることは非常に高価であり、比較的小さな化学空間をカバーする限られた量のデータが得られる。
さらに、これらのデータセットには、かなりの量の矛盾したノイズが含まれている。
データ拡張時の分子活性の整合性を一貫して維持する誘導バイアスを特定することは困難である。
これらの課題に対処するために,我々は,分子3D情報と親和性情報を利用した,リガンドベースの仮想スクリーニングのための半教師付きコントラスト学習のためのS-MolSearchを提案する。
逆最適輸送の原理に基づき、S-MolSearchはラベル付きデータとラベルなしデータの両方を効率的に処理し、ラベルなしデータのソフトラベルを生成しながら分子構造エンコーダを訓練する。
この設計により、S-MolSearchは学習プロセス内でラベルのないデータを適応的に利用することができる。
S-MolSearchは、広く使われているLIT-PCBAとDUD-Eで優れた性能を示す。
AUROC、BEDROC、EF用の構造ベースおよびリガンドベースの仮想スクリーニング手法を超越している。
関連論文リスト
- MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - DrugCLIP: Contrastive Protein-Molecule Representation Learning for
Virtual Screening [16.31607535765497]
DrugCLIPは、仮想スクリーニングのための新しい対照的な学習フレームワークである。
明示的な結合親和性スコアなしで、大量のペアデータから結合タンパク質ポケットと分子の表現を調整できる。
様々な仮想スクリーニングベンチマークにおいて、従来のドッキングや教師あり学習方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-10T07:08:35Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z) - DEL-Dock: Molecular Docking-Enabled Modeling of DNA-Encoded Libraries [1.290382979353427]
我々は、リガンドベースの記述子とドッキングされたタンパク質-リガンド複合体の3次元空間情報を組み合わせた新しいパラダイムDEL-Dockを導入する。
本モデルでは,分子富化スコアを予測するために,DELカウントデータを効果的にデノベートできることを示す。
論文 参考訳(メタデータ) (2022-11-30T22:00:24Z) - SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity
Prediction [127.43571146741984]
薬物標的親和性(DTA)は、早期の薬物発見において極めて重要である。
湿式実験は依然として最も信頼性の高い方法であるが、時間と資源が集中している。
既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。
SSM-DTAフレームワークについて述べる。
論文 参考訳(メタデータ) (2022-06-20T14:53:25Z) - Surrogate- and invariance-boosted contrastive learning for data-scarce
applications in science [2.959890389883449]
3つの安価な情報ソースを組み込んだ深層学習フレームワークであるSurrogate- and invariance-boosted contrastive Learning (SIB-CL)を導入し、データの不足を克服する。
2次元フォトニック結晶の密度を予測し、3次元時間非依存のシュロディンガー方程式を解くなど、SIB-CLの有効性と様々な科学的問題に対する一般性を示す。
論文 参考訳(メタデータ) (2021-10-15T23:08:24Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z) - MolTrans: Molecular Interaction Transformer for Drug Target Interaction
Prediction [68.5766865583049]
薬物標的相互作用(DTI)予測は、シリコ薬物発見の基本的な課題である。
近年、DTI予測におけるディープラーニングの進歩が期待されている。
これらの制約に対処する分子間相互作用変換器(TransMol)を提案する。
論文 参考訳(メタデータ) (2020-04-23T18:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。