論文の概要: Can Pre-trained Models Really Learn Better Molecular Representations for
AI-aided Drug Discovery?
- arxiv url: http://arxiv.org/abs/2209.07423v1
- Date: Sun, 21 Aug 2022 10:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-18 17:01:25.221150
- Title: Can Pre-trained Models Really Learn Better Molecular Representations for
AI-aided Drug Discovery?
- Title(参考訳): 事前訓練されたモデルでは、AI支援薬物発見のためのより良い分子表現が学べるか?
- Authors: Ziqiao Zhang, Yatao Bian, Ailin Xie, Pengju Han, Long-Kai Huang,
Shuigeng Zhou
- Abstract要約: 事前学習モデルにより抽出された表現の質を評価するために,Representation-Property Relation Analysis (RePRA) という手法を提案する。
2つのスコアは、RePRAによって検出された一般化されたACとSHを測定するように設計されている。
実験では、7つの事前学習されたモデルによって生成された10の目標タスクからの分子の表現を解析した。
- 参考スコア(独自算出の注目度): 22.921555120408907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pre-training is gaining increasingly more popularity in
AI-aided drug discovery, leading to more and more pre-trained models with the
promise that they can extract better feature representations for molecules.
Yet, the quality of learned representations have not been fully explored. In
this work, inspired by the two phenomena of Activity Cliffs (ACs) and Scaffold
Hopping (SH) in traditional Quantitative Structure-Activity Relationship (QSAR)
analysis, we propose a method named Representation-Property Relationship
Analysis (RePRA) to evaluate the quality of the representations extracted by
the pre-trained model and visualize the relationship between the
representations and properties. The concepts of ACs and SH are generalized from
the structure-activity context to the representation-property context, and the
underlying principles of RePRA are analyzed theoretically. Two scores are
designed to measure the generalized ACs and SH detected by RePRA, and therefore
the quality of representations can be evaluated. In experiments,
representations of molecules from 10 target tasks generated by 7 pre-trained
models are analyzed. The results indicate that the state-of-the-art pre-trained
models can overcome some shortcomings of canonical Extended-Connectivity
FingerPrints (ECFP), while the correlation between the basis of the
representation space and specific molecular substructures are not explicit.
Thus, some representations could be even worse than the canonical fingerprints.
Our method enables researchers to evaluate the quality of molecular
representations generated by their proposed self-supervised pre-trained models.
And our findings can guide the community to develop better pre-training
techniques to regularize the occurrence of ACs and SH.
- Abstract(参考訳): 自己教師付き事前学習は、AIによる薬物発見でますます人気が高まっており、分子のより良い特徴表現を抽出できることを約束して、より多くの事前訓練モデルが生まれている。
しかし、学習した表現の質は十分に調査されていない。
本稿では,従来の量的構造活性関係解析(qsar)において,活動崖(acs)と足場ホッピング(sh)の2つの現象に触発されて,事前学習したモデルによって抽出された表現の品質を評価し,表現と特性の関係を可視化する表現・属性関係解析(repra)という手法を提案する。
ACとSHの概念は構造活性文脈から表現固有文脈へ一般化され、RePRAの基本原理は理論的に分析される。
2つのスコアは、RePRAによって検出された一般化ACとSHを測定するように設計されているため、表現の質を評価することができる。
実験では、7つの事前学習されたモデルによって生成された10の目標タスクからの分子の表現を解析した。
以上の結果から,標準的な拡張接続性フィンガープリンツ(ECFP)の欠点を克服できるが,表現空間の基底と特定の分子サブ構造との相関は明確ではない。
したがって、一部の表現は標準的な指紋よりもさらに悪い可能性がある。
本手法により,提案した自己教師付き事前学習モデルにより生成された分子表現の質を評価することができる。
以上の結果から,ACsおよびSHの発生を規則化するために,より優れた事前学習技術の開発をコミュニティに促すことができた。
関連論文リスト
- Analyzing Generative Models by Manifold Entropic Metrics [8.477943884416023]
抽出可能な情報理論評価指標を新たに導入する。
EMNISTデータセット上の各種正規化フローアーキテクチャと$beta$-VAEを比較した。
私たちの実験で最も興味深い発見は、トレーニング中に整列および非整合表現に収束する誘導バイアスの観点から、モデルアーキテクチャとトレーニング手順のランク付けです。
論文 参考訳(メタデータ) (2024-10-25T09:35:00Z) - Revealing Multimodal Contrastive Representation Learning through Latent
Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。
マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。
実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Co-modeling the Sequential and Graphical Routes for Peptide
Representation Learning [67.66393016797181]
本稿では,表現の相互情報を強化するためのペプチド共モデリング手法RepConを提案する。
RepConは、正のサンプルペア間の表現の一貫性を高め、負のペア間の表現を撃退することを学ぶ。
この結果から,コモデリング手法が独立モデルよりも優れていること,コモデリングフレームワーク下での他の手法よりもRepConの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-10-04T16:58:25Z) - Learning disentangled representations for explainable chest X-ray
classification using Dirichlet VAEs [68.73427163074015]
本研究では,胸部X線像の非絡み合った潜在表現の学習にDirVAE(Dirichlet Variational Autoencoder)を用いることを検討した。
DirVAEモデルにより学習された多モード潜在表現の予測能力について,補助的多ラベル分類タスクの実装により検討した。
論文 参考訳(メタデータ) (2023-02-06T18:10:08Z) - BARTSmiles: Generative Masked Language Models for Molecular
Representations [10.012900591467938]
BARTSmilesは、従来の自己制御分子表現よりも桁違いに計算量の多いBARTライクなモデルである。
詳細な評価では、BARTSmilesは分類、回帰、生成タスクにまたがる他の自己監督的表現を一貫して上回っている。
論文 参考訳(メタデータ) (2022-11-29T16:30:53Z) - From Distillation to Hard Negative Sampling: Making Sparse Neural IR
Models More Effective [15.542082655342476]
スパース拡張ベースのレトリバーであるSPLADEを使って構築し、密集したモデルと同じトレーニング改善の恩恵を受けることができるかを示します。
ドメイン内およびゼロショット設定における有効性と効率の関係について検討する。
論文 参考訳(メタデータ) (2022-05-10T08:08:43Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Rethinking Generalization of Neural Models: A Named Entity Recognition
Case Study [81.11161697133095]
NERタスクをテストベッドとして、異なる視点から既存モデルの一般化挙動を分析する。
詳細な分析による実験は、既存のニューラルNERモデルのボトルネックを診断する。
本論文の副産物として,最近のNER論文の包括的要約を含むプロジェクトをオープンソース化した。
論文 参考訳(メタデータ) (2020-01-12T04:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。