論文の概要: Large-scale Pretraining Improves Sample Efficiency of Active Learning
based Molecule Virtual Screening
- arxiv url: http://arxiv.org/abs/2309.11687v1
- Date: Wed, 20 Sep 2023 23:43:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:20:43.113388
- Title: Large-scale Pretraining Improves Sample Efficiency of Active Learning
based Molecule Virtual Screening
- Title(参考訳): 大規模事前学習はアクティブラーニングに基づく分子バーチャルスクリーニングのサンプル効率を改善する
- Authors: Zhonglin Cao, Simone Sciabola, Ye Wang
- Abstract要約: 能動的学習とベイズ最適化は、探索空間を狭める効果的な方法として証明されている。
本研究では,ベイズ最適化能動学習フレームワークにおける事前学習型トランスフォーマベース言語モデルとグラフニューラルネットワークの性能について検討した。
最高の事前訓練されたモデルは、99.5百万の化合物を含む超大型ライブラリのわずか0.6%をスクリーニングした後、ドッキングスコアによってトップ50000の58.97%を識別し、以前の最先端ベースラインよりも8%改善した。
- 参考スコア(独自算出の注目度): 3.140895145221042
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Virtual screening of large compound libraries to identify potential hit
candidates is one of the earliest steps in drug discovery. As the size of
commercially available compound collections grows exponentially to the scale of
billions, brute-force virtual screening using traditional tools such as docking
becomes infeasible in terms of time and computational resources. Active
learning and Bayesian optimization has recently been proven as effective
methods of narrowing down the search space. An essential component in those
methods is a surrogate machine learning model that is trained with a small
subset of the library to predict the desired properties of compounds. Accurate
model can achieve high sample efficiency by finding the most promising
compounds with only a fraction of the whole library being virtually screened.
In this study, we examined the performance of pretrained transformer-based
language model and graph neural network in Bayesian optimization active
learning framework. The best pretrained models identifies 58.97% of the
top-50000 by docking score after screening only 0.6% of an ultra-large library
containing 99.5 million compounds, improving 8% over previous state-of-the-art
baseline. Through extensive benchmarks, we show that the superior performance
of pretrained models persists in both structure-based and ligand-based drug
discovery. Such model can serve as a boost to the accuracy and sample
efficiency of active learning based molecule virtual screening.
- Abstract(参考訳): 潜在的なヒット候補を特定するための大規模な複合ライブラリの仮想スクリーニングは、薬物発見の最も初期のステップの1つである。
市販の複合コレクションのサイズが数十億の規模に指数関数的に拡大するにつれて、ドッキングなどの従来のツールを用いたブルートフォース仮想スクリーニングは、時間と計算資源の観点から実現不可能となる。
アクティブラーニングとベイズ最適化は、最近検索空間を狭める効果的な方法として証明されている。
これらの手法における重要な要素は、化合物の望ましい性質を予測するために、ライブラリの小さなサブセットで訓練された代理機械学習モデルである。
正確なモデルは、ライブラリ全体のほんの一部しか表示されていない最も有望な化合物を見つけることで、高いサンプル効率を達成できる。
本研究では,ベイズ最適化能動学習フレームワークにおける事前学習型トランスフォーマベース言語モデルとグラフニューラルネットワークの性能について検討した。
最高の事前訓練されたモデルは、995万の化合物を含む超大型図書館のわずか0.6%をスクリーニングした後、ドッキングスコアによってトップ50000の58.97%を識別し、以前の最先端のベースラインよりも8%改善した。
広範なベンチマークを通じて,事前学習モデルの優れた性能は,構造ベースとリガンドベースの薬物発見の両方において持続することを示した。
このようなモデルは、アクティブラーニングに基づく分子仮想スクリーニングの精度とサンプル効率の向上に寄与する。
関連論文リスト
- CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination [28.061239778773423]
CLIP(Contrastive Language- Image Pre-Training)は、幅広いタスクにおいて優れたパフォーマンスを実現している。
CLIPは事前学習データのかなりのコーパスに大きく依存しており、計算資源を消費している。
CLIP-CID(CLIP-CID)は,大規模視覚言語基礎モデルからより小さなモデルへ知識を効果的に伝達する蒸留機構である。
論文 参考訳(メタデータ) (2024-08-18T11:23:21Z) - Understanding active learning of molecular docking and its applications [0.6554326244334868]
本研究では,2次元構造のみを用いて,能動的学習手法がドッキングスコアを効果的に予測する方法を検討する。
以上の結果から,サロゲートモデルではドッキング量の高い化合物に代表される構造パターンを記憶する傾向が示唆された。
我々の総合的な分析は、仮想スクリーニングキャンペーンにおけるアクティブラーニング手法の信頼性と潜在的な適用可能性を示している。
論文 参考訳(メタデータ) (2024-06-14T05:43:42Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Drug Synergistic Combinations Predictions via Large-Scale Pre-Training
and Graph Structure Learning [82.93806087715507]
薬物併用療法は、より有効で安全性の低い疾患治療のための確立された戦略である。
ディープラーニングモデルは、シナジスティックな組み合わせを発見する効率的な方法として登場した。
我々のフレームワークは、他のディープラーニングベースの手法と比較して最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-01-14T15:07:43Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Efficacy of Bayesian Neural Networks in Active Learning [11.609770399591516]
ベイズニューラルネットワークは、アンサンブルに基づく不確実性を捕捉する技術よりも効率的であることを示す。
また,近年,モンテカルロのドロップアウトよりも効果的であることが判明したアンサンブル技法の重要な欠点も明らかにした。
論文 参考訳(メタデータ) (2021-04-02T06:02:11Z) - Beyond Self-Supervision: A Simple Yet Effective Network Distillation
Alternative to Improve Backbones [40.33419553042038]
既製のトレーニング済み大型モデルからナレッジ蒸留による既存ベースラインネットワークの改善を提案します。
本ソリューションは,教師モデルと整合した学生モデルの予測のみを駆動することにより,蒸留を行う。
例えば、MobileNetV3-large と ResNet50-D の ImageNet-1k 検証セットにおけるトップ-1 の精度は、大幅に向上できる。
論文 参考訳(メタデータ) (2021-03-10T09:32:44Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Accelerating high-throughput virtual screening through molecular
pool-based active learning [2.17167311150369]
ライブラリのサブセットの予測親和性に基づいてトレーニングされた構造プロパティモデルが、残りのライブラリメンバーにどのように適用できるかを示す。
欲求獲得戦略を用いても,計算コストの大幅な削減が観察された。
論文 参考訳(メタデータ) (2020-12-13T19:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。