論文の概要: Meaningful machine learning models and machine-learned pharmacophores
from fragment screening campaigns
- arxiv url: http://arxiv.org/abs/2204.06348v1
- Date: Fri, 25 Mar 2022 18:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-17 07:29:53.718399
- Title: Meaningful machine learning models and machine-learned pharmacophores
from fragment screening campaigns
- Title(参考訳): フラグメントスクリーニングキャンペーンにおける機械学習モデルと機械学習
- Authors: Carl Poelking, Gianni Chessari, Christopher W. Murray, Richard J.
Hall, Lucy Colwell, Marcel Verdonk
- Abstract要約: 機械学習モデルは50以上のフラグメントスクリーニングキャンペーンから派生しています。
MLモデルがバインドを成功させる上で重要であると考えるものについて、物理的に解釈可能で検証可能な表現を提供する。
MLモデルが提案する重要な分子構造と,手動で割り当てた分子構造との間には,よく一致している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) is widely used in drug discovery to train models that
predict protein-ligand binding. These models are of great value to medicinal
chemists, in particular if they provide case-specific insight into the physical
interactions that drive the binding process. In this study we derive ML models
from over 50 fragment-screening campaigns to introduce two important elements
that we believe are absent in most -- if not all -- ML studies of this type
reported to date: First, alongside the observed hits we use to train our
models, we incorporate true misses and show that these experimentally validated
negative data are of significant importance to the quality of the derived
models. Second, we provide a physically interpretable and verifiable
representation of what the ML model considers important for successful binding.
This representation is derived from a straightforward attribution procedure
that explains the prediction in terms of the (inter-)action of chemical
environments. Critically, we validate the attribution outcome on a large scale
against prior annotations made independently by expert molecular modellers. We
find good agreement between the key molecular substructures proposed by the ML
model and those assigned manually, even when the model's performance in
discriminating hits from misses is far from perfect. By projecting the
attribution onto predefined interaction prototypes (pharmacophores), we show
that ML allows us to formulate simple rules for what drives fragment binding
against a target automatically from screening data.
- Abstract(参考訳): 機械学習(ML)は、タンパク質-リガンド結合を予測するモデルを訓練するために、薬物発見に広く用いられている。
これらのモデルは医薬化学者にとって非常に価値があり、特に結合過程を駆動する物理的相互作用に対するケース固有の洞察を提供する。
この研究では、50以上のフラグメントスクリーニングキャンペーンからmlモデルを導出して、最も欠落していると思われる2つの重要な要素 -- すべてではないとしても -- を導入することで、このタイプのml研究が報告されている。
次に、mlモデルがバインディングの成功に重要であると考えるものを、物理的に解釈可能かつ検証可能な表現する。
この表現は、化学環境の(相互の)作用の観点から予測を説明する単純な帰属手順に由来する。
重要な点として、専門家の分子モデルによる先行アノテーションに対して、大規模な帰属結果を検証する。
MLモデルが提案する重要な分子構造と,ミスからヒットを識別するモデルの性能が完璧ではない場合でも,手動で割り当てられた分子構造との間には良好な一致が認められる。
この属性を予め定義された相互作用のプロトタイプ(薬局フォア)に投影することにより、MLはターゲットに対するフラグメントバインディングをスクリーニングデータから自動的に駆動する単純なルールを定式化できることを示す。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。
LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文 参考訳(メタデータ) (2024-05-02T02:20:12Z) - Optimizing OOD Detection in Molecular Graphs: A Novel Approach with Diffusion Models [71.39421638547164]
本稿では,入力分子と再構成グラフの類似性を比較する補助拡散モデルに基づくフレームワークを用いてOOD分子を検出することを提案する。
IDトレーニングサンプルの再構成に向けた生成バイアスのため、OOD分子の類似度スコアは検出を容易にするためにはるかに低い。
本研究は,PGR-MOOD(PGR-MOOD)とよばれる分子OOD検出のためのプロトタイプグラフ再構成のアプローチを開拓し,3つのイノベーションを生かした。
論文 参考訳(メタデータ) (2024-04-24T03:25:53Z) - Molecular Property Prediction by Semantic-invariant Contrastive Learning [26.19431931932982]
分子特性予測のためのビュー生成法に基づくフラグメントに基づくセマンティック不変コントラスト学習モデルを開発した。
事前トレーニングのサンプルが少ないため、FraSICLは既存の主要なモデルと比較して最先端のパフォーマンスを達成できる。
論文 参考訳(メタデータ) (2023-03-13T07:32:37Z) - Benchmarking Machine Learning Robustness in Covid-19 Genome Sequence
Classification [109.81283748940696]
我々は、IlluminaやPacBioといった一般的なシークエンシングプラットフォームのエラープロファイルを模倣するために、SARS-CoV-2ゲノム配列を摂動する方法をいくつか紹介する。
シミュレーションに基づくいくつかのアプローチは、入力シーケンスに対する特定の敵攻撃に対する特定の埋め込み手法に対して、他の手法よりも堅牢(かつ正確)であることを示す。
論文 参考訳(メタデータ) (2022-07-18T19:16:56Z) - Predicting Chemical Properties using Self-Attention Multi-task Learning
based on SMILES Representation [0.0]
本研究では,変圧器変圧器モデルの構造的差異について検討し,新しい自己注意モデルを提案する。
不均衡な化学データセットを用いたマルチタスク学習環境において,自己認識モジュールの表現学習性能を評価した。
論文 参考訳(メタデータ) (2020-10-19T09:46:50Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z) - Data and Model Dependencies of Membership Inference Attack [13.951470844348899]
我々は、データとMLモデル特性の両方がMIAに対するML手法の脆弱性に与える影響を実証分析する。
この結果から,MIAの精度とデータセットの特性と使用中のトレーニングモデルとの関係が明らかになった。
我々は,これらのデータとモデル特性をレギュレータとして利用し,MLモデルをMIAに対して保護することを提案する。
論文 参考訳(メタデータ) (2020-02-17T09:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。