論文の概要: Substrate Scope Contrastive Learning: Repurposing Human Bias to Learn
Atomic Representations
- arxiv url: http://arxiv.org/abs/2402.16882v1
- Date: Mon, 19 Feb 2024 02:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-03 19:07:11.132704
- Title: Substrate Scope Contrastive Learning: Repurposing Human Bias to Learn
Atomic Representations
- Title(参考訳): 基板スコープの対比学習:原子表現を学ぶために人間のバイアスを再提案する
- Authors: Wenhao Gao, Priyanka Raghavan, Ron Shprints, Connor W. Coley
- Abstract要約: 本稿では,化学反応性に適合した原子表現を学習する,新しい事前学習戦略,基板スコープコントラスト学習を導入する。
我々は, 数千の出版物にまたがるCASコンテントコレクションにおいて, 20,798 のアリルハロゲン化物に着目し, アリルハロゲン化物反応性の表現を学習した。
この研究は、反応性に整合した原子表現を学ぶための、化学調整されたニューラルネットワーク事前学習戦略を示すだけでなく、基質スコープ設計における人間のバイアスの恩恵を受けるための、第一級のアプローチを示す。
- 参考スコア(独自算出の注目度): 14.528429119352328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning molecular representation is a critical step in molecular machine
learning that significantly influences modeling success, particularly in
data-scarce situations. The concept of broadly pre-training neural networks has
advanced fields such as computer vision, natural language processing, and
protein engineering. However, similar approaches for small organic molecules
have not achieved comparable success. In this work, we introduce a novel
pre-training strategy, substrate scope contrastive learning, which learns
atomic representations tailored to chemical reactivity. This method considers
the grouping of substrates and their yields in published substrate scope tables
as a measure of their similarity or dissimilarity in terms of chemical
reactivity. We focus on 20,798 aryl halides in the CAS Content Collection
spanning thousands of publications to learn a representation of aryl halide
reactivity. We validate our pre-training approach through both intuitive
visualizations and comparisons to traditional reactivity descriptors and
physical organic chemistry principles. The versatility of these embeddings is
further evidenced in their application to yield prediction, regioselectivity
prediction, and the diverse selection of new substrates. This work not only
presents a chemistry-tailored neural network pre-training strategy to learn
reactivity-aligned atomic representations, but also marks a first-of-its-kind
approach to benefit from the human bias in substrate scope design.
- Abstract(参考訳): 分子表現の学習は、モデリングの成功に大きな影響を及ぼす分子機械学習における重要なステップである。
ニューラルネットワークを広く事前学習する概念には、コンピュータビジョン、自然言語処理、タンパク質工学といった高度な分野がある。
しかし、小さな有機分子に対する同様のアプローチは、同等の成功を得られていない。
本研究では, 化学反応性に合わせた原子表現を学習する新しい事前学習戦略, 基板スコープコントラスト学習を提案する。
本手法では, 基質の類似性や化学反応性の相違の指標として, 公開基板スコープ表における基質群とそれらの収量について考察する。
我々は, 数千の出版物にまたがるCASコンテントコレクションにおいて, 20,798 のアリルハロゲン化物に着目し, アリルハロゲン化物反応性の表現を学習した。
直感的な可視化と従来の反応性記述子との比較と物理有機化学の原理による事前学習アプローチを検証する。
これらの埋め込みの汎用性はさらに、それらの応用によって予測、回帰選択性予測、および新しい基質の多彩な選択が証明されている。
この研究は、反応性整合原子表現を学ぶための化学カスタマイズニューラルネットワーク事前学習戦略を示すだけでなく、基板のスコープ設計における人間のバイアスから利益を得るためのits-kindアプローチを示すものである。
関連論文リスト
- Challenging reaction prediction models to generalize to novel chemistry [12.33727805025678]
本稿では,SMILESに基づく深層学習モデルの一連の評価について報告する。
まず、ランダムにサンプリングされたデータセットのパフォーマンスが、新しい特許や新しい著者に一般化する際のパフォーマンスと比べて、過度に楽観的であることを示す。
第二に、トレーニングセットの何年にもわたってテストされたモデルがどのように機能するかを評価する時間分割を実施し、実際のデプロイメントを模倣します。
論文 参考訳(メタデータ) (2025-01-11T23:49:14Z) - Learning Chemical Reaction Representation with Reactant-Product Alignment [50.28123475356234]
本稿では,様々な有機反応関連タスクに適した新しい化学反応表現学習モデルであるモデルネームを紹介する。
反応物質と生成物との原子対応を統合することにより、反応中に生じる分子変換を識別し、反応機構の理解を深める。
反応条件を化学反応表現に組み込むアダプタ構造を設計し、様々な反応条件を処理し、様々なデータセットや下流タスク、例えば反応性能予測に適応できるようにした。
論文 参考訳(メタデータ) (2024-11-26T17:41:44Z) - Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - NeuralCRNs: A Natural Implementation of Learning in Chemical Reaction Networks [0.0]
決定論的化学反応ネットワーク(CRN)の集合体として構築された新しい教師あり学習フレームワークを提案する。
従来の作業とは異なり、NeuralCRNsフレームワークは動的システムベースの学習実装に基づいており、結果として化学的に互換性のある計算が行われる。
論文 参考訳(メタデータ) (2024-08-18T01:43:26Z) - Active Causal Learning for Decoding Chemical Complexities with Targeted Interventions [0.0]
そこで本研究では,戦略的サンプリングを通じて原因・影響関係を識別する能動的学習手法を提案する。
この方法は、より大きな化学空間の最も多くの情報を符号化できるデータセットの最小サブセットを特定する。
その後、同定された因果関係を利用して体系的な介入を行い、モデルがこれまで遭遇していなかった化学空間における設計タスクを最適化する。
論文 参考訳(メタデータ) (2024-04-05T17:15:48Z) - UAlign: Pushing the Limit of Template-free Retrosynthesis Prediction with Unsupervised SMILES Alignment [51.49238426241974]
本稿では,テンプレートのないグラフ・ツー・シーケンスパイプラインであるUAlignを紹介した。
グラフニューラルネットワークとトランスフォーマーを組み合わせることで、分子固有のグラフ構造をより効果的に活用することができる。
論文 参考訳(メタデータ) (2024-03-25T03:23:03Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - Contextual Molecule Representation Learning from Chemical Reaction
Knowledge [24.501564702095937]
本稿では,共通化学における原子結合規則をうまく利用した自己教師型学習フレームワークREMOを紹介する。
REMOは、文献における170万の既知の化学反応に関するグラフ/トランスフォーマーエンコーダを事前訓練する。
論文 参考訳(メタデータ) (2024-02-21T12:58:40Z) - A large dataset curation and benchmark for drug target interaction [0.7699646945563469]
生物活性データは、薬物の発見と再資源化において重要な役割を担っている。
複数の公開ソースからキュレートされた非常に大きなデータセットを標準化し、効率的に表現する方法を提案する。
論文 参考訳(メタデータ) (2024-01-30T17:06:25Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - Discovery of structure-property relations for molecules via
hypothesis-driven active learning over the chemical space [0.0]
本稿では,仮説学習に基づく化学空間上の能動的学習のための新しいアプローチを提案する。
我々は,データサブセットの小さな部分集合に基づいて,関心の構造と機能の関係性に関する仮説を構築した。
このアプローチでは、SISSOやアクティブラーニングといったシンボリックレグレッションメソッドの要素をひとつのフレームワークに統合する。
論文 参考訳(メタデータ) (2023-01-06T14:22:43Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction [121.97742787439546]
分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
論文 参考訳(メタデータ) (2022-05-23T12:56:12Z) - Selection of pseudo-annotated data for adverse drug reaction
classification across drug groups [12.259552039796027]
我々は、さまざまな薬物群にまたがる最先端のニューラルアーキテクチャの堅牢性を評価する。
そこで我々は,手動で注釈付けした列車セットに加えて,擬似ラベル付きデータを使用するためのいくつかの戦略について検討した。
論文 参考訳(メタデータ) (2021-11-24T13:11:05Z) - Machine learning modeling of family wide enzyme-substrate specificity
screens [2.276367922551686]
バイオ触媒は、医薬品、複雑な天然物、商品化学物質を大規模に合成するための有望なアプローチである。
生体触媒の導入は、非天然基質上での化学的変換を触媒する酵素の選択能力によって制限される。
論文 参考訳(メタデータ) (2021-09-08T19:44:42Z) - RetCL: A Selection-based Approach for Retrosynthesis via Contrastive
Learning [107.64562550844146]
レトロシンセシスは深層学習の新たな研究分野である。
本稿では, 市販分子の候補群から, 反応物質の選択問題へとレトロシンセシスを再構成する新しいアプローチを提案する。
スコア機能を学ぶために、ハードネガティブマイニングを備えた新しいコントラストトレーニングスキームも提案します。
論文 参考訳(メタデータ) (2021-05-03T12:47:57Z) - Chemical Property Prediction Under Experimental Biases [26.407895054724452]
本研究は,実験データセットにおけるバイアス軽減に焦点を当てた。
我々は因果推論とグラフニューラルネットワークを組み合わせた2つの手法を用いて分子構造を表現した。
4つのバイアスシナリオによる実験結果から,逆確率スコアリング法と反実回帰法が確固たる改善をもたらしたことが示唆された。
論文 参考訳(メタデータ) (2020-09-18T08:40:57Z) - Energy-based View of Retrosynthesis [70.66156081030766]
エネルギーモデルとしてシーケンスおよびグラフベースの手法を統一するフレームワークを提案する。
本稿では,ベイズ前方および後方予測に対して一貫した訓練を行うフレームワーク内での新しい二重変種を提案する。
このモデルは、反応型が不明なテンプレートフリーアプローチに対して、最先端の性能を9.6%向上させる。
論文 参考訳(メタデータ) (2020-07-14T18:51:06Z) - Graph Neural Networks for the Prediction of Substrate-Specific Organic
Reaction Conditions [79.45090959869124]
有機化学反応をモデル化するために,グラフニューラルネットワーク(GNN)を用いた系統的研究を行った。
実験試薬と条件の識別に関わる分類タスクに対して、7つの異なるGNNアーキテクチャを評価した。
論文 参考訳(メタデータ) (2020-07-08T17:21:00Z) - Multi-View Self-Attention for Interpretable Drug-Target Interaction
Prediction [4.307720252429733]
機械学習のアプローチでは、分子の数値表現がモデルの性能に欠かせない。
薬物と標的の相互作用をモデル化するための自己注意に基づく多視点表現学習手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T14:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。