論文の概要: Multi-Constraint Molecular Generation using Sparsely Labelled Training
Data for Localized High-Concentration Electrolyte Diluent Screening
- arxiv url: http://arxiv.org/abs/2301.04814v1
- Date: Thu, 12 Jan 2023 04:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:20:16.071200
- Title: Multi-Constraint Molecular Generation using Sparsely Labelled Training
Data for Localized High-Concentration Electrolyte Diluent Screening
- Title(参考訳): 局所高濃度電解質希釈スクリーニングのためのスパースラベリングトレーニングデータを用いた多拘束分子生成
- Authors: Jonathan P. Mailoa, Xin Li, Jiezhong Qiu, Shengyu Zhang
- Abstract要約: 本稿では,完全にラベル付けされた分子特性学習データのみで動作する半教師付き変分自動エンコーダ(SSVAE)モデルをどう修正するかを示す。
本研究では,複数の公開可能な分子特性データベースから学習したデータセット上で,複数の制約を課した分子生成におけるConGenの性能を評価する。
- 参考スコア(独自算出の注目度): 24.133946898575395
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, machine learning methods have been used to propose molecules with
desired properties, which is especially useful for exploring large chemical
spaces efficiently. However, these methods rely on fully labelled training
data, and are not practical in situations where molecules with multiple
property constraints are required. There is often insufficient training data
for all those properties from publicly available databases, especially when
ab-initio simulation or experimental property data is also desired for training
the conditional molecular generative model. In this work, we show how to modify
a semi-supervised variational auto-encoder (SSVAE) model which only works with
fully labelled and fully unlabelled molecular property training data into the
ConGen model, which also works on training data that have sparsely populated
labels. We evaluate ConGen's performance in generating molecules with multiple
constraints when trained on a dataset combined from multiple publicly available
molecule property databases, and demonstrate an example application of building
the virtual chemical space for potential Lithium-ion battery localized
high-concentration electrolyte (LHCE) diluents.
- Abstract(参考訳): 近年,大規模化学空間の探索に特に有用である,所望の特性を持つ分子の探索に機械学習手法が用いられている。
しかし、これらの方法は完全なラベル付きトレーニングデータに依存しており、複数の特性制約のある分子を必要とする状況では実用的ではない。
特に条件付き分子生成モデルの訓練にab-initioシミュレーションや実験的特性データが望まれる場合には、公開データベースから得られる全ての特性のトレーニングデータが不十分であることが多い。
本稿では,半教師付き変分オートエンコーダ(ssvae)モデルを,完全にラベル付きで完全にラベル付されていない分子特性トレーニングデータのみをcongenモデルに修正する方法を示す。
本研究では,複数の利用可能な分子特性データベースから組み合わせたデータセット上で,複数の制約のある分子を生成することにおけるcongenの性能を評価し,リチウムイオン電池局所化高濃度電解質 (lhce) 用仮想化学空間の構築例を示す。
関連論文リスト
- Transferring a molecular foundation model for polymer property
predictions [3.067983186439152]
トランスモデルの自己教師付き事前トレーニングには、大規模なデータセットが必要である。
本研究では, 高分子特性を微調整し, 小分子で事前学習したトランスフォーマーを用いることで, 強化ポリマーデータセットでトレーニングしたトランスフォーマーと同等の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-10-25T19:55:00Z) - Molecule Design by Latent Space Energy-Based Modeling and Gradual
Distribution Shifting [53.44684898432997]
化学的・生物学的性質が望ましい分子の生成は、薬物発見にとって重要である。
本稿では,分子の結合分布とその特性を捉える確率的生成モデルを提案する。
本手法は種々の分子設計タスクにおいて非常に強力な性能を発揮する。
論文 参考訳(メタデータ) (2023-06-09T03:04:21Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Exploring Chemical Space with Score-based Out-of-distribution Generation [57.15855198512551]
生成微分方程式(SDE)にアウト・オブ・ディストリビューション制御を組み込んだスコアベース拡散方式を提案する。
いくつかの新しい分子は現実世界の薬物の基本的な要件を満たしていないため、MOODは特性予測器からの勾配を利用して条件付き生成を行う。
我々はMOODがトレーニング分布を超えて化学空間を探索できることを実験的に検証し、既存の方法で見いだされた分子、そして元のトレーニングプールの上位0.01%までも生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-06T06:17:11Z) - Data-Efficient Graph Grammar Learning for Molecular Generation [41.936515793383]
本稿では,一般的なベンチマークよりも小さなサイズのデータセットから学習可能な,データ効率のよい生成モデルを提案する。
学習したグラフ文法は、3つのモノマーデータセットに対して高品質な分子を生成するための最先端の結果をもたらす。
また, 本手法は, トレーニングサンプル117ドルで, 難易度の高いポリマー生成タスクにおいて, 顕著な性能を実現している。
論文 参考訳(メタデータ) (2022-03-15T16:14:30Z) - Improving VAE based molecular representations for compound property
prediction [0.0]
機械学習モデルの化学特性予測性能を簡易に向上する手法を提案する。
本稿では,プロパティ予測モデルの性能と,プロパティ予測データセットとより大きなラベル付きデータセットとの距離の関係を示す。
論文 参考訳(メタデータ) (2022-01-13T12:57:11Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。
ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文 参考訳(メタデータ) (2021-06-08T10:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。