論文の概要: AugLiChem: Data Augmentation Library ofChemical Structures for Machine
Learning
- arxiv url: http://arxiv.org/abs/2111.15112v1
- Date: Tue, 30 Nov 2021 04:07:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 03:59:58.115471
- Title: AugLiChem: Data Augmentation Library ofChemical Structures for Machine
Learning
- Title(参考訳): AugLiChem: 機械学習のための化学構造データ拡張ライブラリ
- Authors: Rishikesh Magar, Yuyang Wang, Cooper Lorsung, Chen Liang, Hariharan
Ramasubramanian, Peiyuan Li and Amir Barati Farimani
- Abstract要約: AugLiChem: 化学構造のためのデータ拡張ライブラリ。
結晶系と分子の増進法が導入された。
拡張戦略を用いることで,MLモデルの性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 12.864696894234715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) has demonstrated the promise for accurate andefficient
property prediction of molecules and crystalline materials. Todevelop highly
accurate ML models for chemical structure property pre-diction, datasets with
sufficient samples are required. However, obtainingclean and sufficient data of
chemical properties can be expensive andtime-consuming, which greatly limits
the performance of ML models.Inspired by the success of data augmentations in
computer vision andnatural language processing, we developed AugLiChem: the
data aug-mentation library for chemical structures. Augmentation methods
forboth crystalline systems and molecules are introduced, which can beutilized
for fingerprint-based ML models and Graph Neural Networks(GNNs). We show that
using our augmentation strategies significantlyimproves the performance of ML
models, especially when using GNNs.In addition, the augmentations that we
developed can be used as adirect plug-in module during training and have
demonstrated the effec-tiveness when implemented with different GNN models
through theAugliChem library. The Python-based package for our implementa-tion
of Auglichem: Data augmentation library for chemical structures,is publicly
available at: https://github.com/BaratiLab/AugLiChem.1
- Abstract(参考訳): 機械学習(ML)は分子や結晶材料の正確かつ効率的な特性予測の可能性を実証している。
化学構造特性プレディションのための高精度MLモデルを開発するためには、十分なサンプルを持つデータセットが必要である。
しかし,コンピュータビジョンと自然言語処理におけるデータ拡張の成功に触発されて,化学構造のためのデータオーグメンテーションライブラリ auglichem: the data aug-mentation library を開発した。
指紋ベースのMLモデルやグラフニューラルネットワーク(GNN)に利用することができる結晶系および分子の増強手法が導入された。
本稿では,GNN を用いた場合,ML モデルの性能が大幅に向上することを示すとともに,トレーニング中に直接プラグインモジュールとして利用し,異なる GNN モデルで AugliChem ライブラリを用いて実装した場合のエフェック・サイティング性を実証した。
Auglichemの実装のためのPythonベースのパッケージ: 化学構造のためのデータ拡張ライブラリは、https://github.com/BaratiLab/AugLiChem.1で公開されている。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Synthetic data enable experiments in atomistic machine learning [0.0]
既存のMLポテンシャルモデルから,原子単位のエネルギーをラベル付けした大規模データセットの使用を実演する。
このプロセスの安価さは、量子力学の土台真実に比べれば、数百万のデータポイントを生成できる。
合成データラベルの学習は、後続の小さなデータセットの微調整に有用な事前学習タスクであることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:17:24Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - MolGraph: a Python package for the implementation of molecular graphs
and graph neural networks with TensorFlow and Keras [51.92255321684027]
MolGraphは、分子機械学習(ML)のためのグラフニューラルネットワーク(GNN)パッケージである
MolGraphは、分子ML問題を解決するためにGNNアルゴリズムに渡すことができる小さな分子グラフを生成するための化学モジュールを実装している。
GNNは分子識別に有用であり,クロマトグラフィー保持時間データの解釈性が向上した。
論文 参考訳(メタデータ) (2022-08-21T18:37:41Z) - Crystal Twins: Self-supervised Learning for Crystalline Material
Property Prediction [8.048439531116367]
結晶性物質特性予測のためのSSL法であるCrystal Twins(CT)を紹介する。
我々は、拡張インスタンスのグラフ潜在埋め込みに冗長性低減原理を適用して、グラフニューラルネットワーク(GNN)を事前訓練する。
回帰タスクのGNNを微調整する際の事前学習重みの共有により、7つの課題のある材料特性予測ベンチマークの性能を著しく改善する。
論文 参考訳(メタデータ) (2022-05-04T05:08:46Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - DGL-LifeSci: An Open-Source Toolkit for Deep Learning on Graphs in Life
Science [5.3825788156200565]
DGL-LifeSciは,生命科学におけるグラフの深層学習のためのオープンソースパッケージである。
DGL-LifeSciはRDKit、PyTorch、Deep Graph Libraryをベースにしたピソンツールキットである。
これは、分子特性予測、反応予測、分子生成のためのカスタムデータセットに基づくGNNベースのモデリングを可能にする。
論文 参考訳(メタデータ) (2021-06-27T13:27:47Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - A Universal Framework for Featurization of Atomistic Systems [0.0]
物理や機械学習に基づく反応力場は、時間と長さのスケールのギャップを埋めるために使うことができる。
本稿では,原子周囲の電子密度の物理的に関連する多極展開を利用するガウス多極(GMP)デデュール化スキームを紹介する。
我々は,GMPに基づくモデルがQM9データセットの化学的精度を達成できることを示し,新しい要素を外挿してもその精度は妥当であることを示した。
論文 参考訳(メタデータ) (2021-02-04T03:11:00Z) - ML4Chem: A Machine Learning Package for Chemistry and Materials Science [0.0]
ML4Chemは、化学と材料科学のためのオープンソースの機械学習ライブラリである。
機械学習モデルとパイプラインの開発とデプロイのための拡張可能なプラットフォームを提供する。
ここでは、実装、デプロイ、推論のためのアトミックモジュールを紹介します。
論文 参考訳(メタデータ) (2020-03-02T00:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。