論文の概要: Multi-Constraint Molecular Generation using Sparsely Labelled Training
Data for Localized High-Concentration Electrolyte Diluent Screening
- arxiv url: http://arxiv.org/abs/2301.04814v1
- Date: Thu, 12 Jan 2023 04:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:20:16.071200
- Title: Multi-Constraint Molecular Generation using Sparsely Labelled Training
Data for Localized High-Concentration Electrolyte Diluent Screening
- Title(参考訳): 局所高濃度電解質希釈スクリーニングのためのスパースラベリングトレーニングデータを用いた多拘束分子生成
- Authors: Jonathan P. Mailoa, Xin Li, Jiezhong Qiu, Shengyu Zhang
- Abstract要約: 本稿では,完全にラベル付けされた分子特性学習データのみで動作する半教師付き変分自動エンコーダ(SSVAE)モデルをどう修正するかを示す。
本研究では,複数の公開可能な分子特性データベースから学習したデータセット上で,複数の制約を課した分子生成におけるConGenの性能を評価する。
- 参考スコア(独自算出の注目度): 24.133946898575395
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, machine learning methods have been used to propose molecules with
desired properties, which is especially useful for exploring large chemical
spaces efficiently. However, these methods rely on fully labelled training
data, and are not practical in situations where molecules with multiple
property constraints are required. There is often insufficient training data
for all those properties from publicly available databases, especially when
ab-initio simulation or experimental property data is also desired for training
the conditional molecular generative model. In this work, we show how to modify
a semi-supervised variational auto-encoder (SSVAE) model which only works with
fully labelled and fully unlabelled molecular property training data into the
ConGen model, which also works on training data that have sparsely populated
labels. We evaluate ConGen's performance in generating molecules with multiple
constraints when trained on a dataset combined from multiple publicly available
molecule property databases, and demonstrate an example application of building
the virtual chemical space for potential Lithium-ion battery localized
high-concentration electrolyte (LHCE) diluents.
- Abstract(参考訳): 近年,大規模化学空間の探索に特に有用である,所望の特性を持つ分子の探索に機械学習手法が用いられている。
しかし、これらの方法は完全なラベル付きトレーニングデータに依存しており、複数の特性制約のある分子を必要とする状況では実用的ではない。
特に条件付き分子生成モデルの訓練にab-initioシミュレーションや実験的特性データが望まれる場合には、公開データベースから得られる全ての特性のトレーニングデータが不十分であることが多い。
本稿では,半教師付き変分オートエンコーダ(ssvae)モデルを,完全にラベル付きで完全にラベル付されていない分子特性トレーニングデータのみをcongenモデルに修正する方法を示す。
本研究では,複数の利用可能な分子特性データベースから組み合わせたデータセット上で,複数の制約のある分子を生成することにおけるcongenの性能を評価し,リチウムイオン電池局所化高濃度電解質 (lhce) 用仮想化学空間の構築例を示す。
関連論文リスト
- Two-Stage Pretraining for Molecular Property Prediction in the Wild [38.31911435361748]
野生の様々な分子特性予測のために設計された多目的事前学習モデルであるMoleVersを紹介する。
MoleVersは、マスクされた原子予測と動的復調を通じて、大きなラベルのないデータセットから表現を学習する。
第2段階では、MoleVersはさらに安価な計算手法で得られた補助ラベルを用いて事前訓練される。
論文 参考訳(メタデータ) (2024-11-05T22:36:17Z) - MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - Exploring Chemical Space with Score-based Out-of-distribution Generation [57.15855198512551]
生成微分方程式(SDE)にアウト・オブ・ディストリビューション制御を組み込んだスコアベース拡散方式を提案する。
いくつかの新しい分子は現実世界の薬物の基本的な要件を満たしていないため、MOODは特性予測器からの勾配を利用して条件付き生成を行う。
我々はMOODがトレーニング分布を超えて化学空間を探索できることを実験的に検証し、既存の方法で見いだされた分子、そして元のトレーニングプールの上位0.01%までも生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-06T06:17:11Z) - Data-Efficient Graph Grammar Learning for Molecular Generation [41.936515793383]
本稿では,一般的なベンチマークよりも小さなサイズのデータセットから学習可能な,データ効率のよい生成モデルを提案する。
学習したグラフ文法は、3つのモノマーデータセットに対して高品質な分子を生成するための最先端の結果をもたらす。
また, 本手法は, トレーニングサンプル117ドルで, 難易度の高いポリマー生成タスクにおいて, 顕著な性能を実現している。
論文 参考訳(メタデータ) (2022-03-15T16:14:30Z) - Improving VAE based molecular representations for compound property
prediction [0.0]
機械学習モデルの化学特性予測性能を簡易に向上する手法を提案する。
本稿では,プロパティ予測モデルの性能と,プロパティ予測データセットとより大きなラベル付きデータセットとの距離の関係を示す。
論文 参考訳(メタデータ) (2022-01-13T12:57:11Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z) - BIGDML: Towards Exact Machine Learning Force Fields for Materials [55.944221055171276]
機械学習力場(MLFF)は正確で、計算的で、データ効率が良く、分子、材料、およびそれらのインターフェースに適用できなければならない。
ここでは、Bravais-Inspired Gradient-Domain Machine Learningアプローチを導入し、わずか10-200原子のトレーニングセットを用いて、信頼性の高い力場を構築する能力を実証する。
論文 参考訳(メタデータ) (2021-06-08T10:14:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。