論文の概要: AugLiChem: Data Augmentation Library of Chemical Structures for Machine
Learning
- arxiv url: http://arxiv.org/abs/2111.15112v2
- Date: Wed, 1 Dec 2021 21:04:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 10:24:22.653760
- Title: AugLiChem: Data Augmentation Library of Chemical Structures for Machine
Learning
- Title(参考訳): AugLiChem: 機械学習のための化学構造データ拡張ライブラリ
- Authors: Rishikesh Magar, Yuyang Wang, Cooper Lorsung, Chen Liang, Hariharan
Ramasubramanian, Peiyuan Li and Amir Barati Farimani
- Abstract要約: AugLiChemは化学構造のためのデータ拡張ライブラリである。
結晶系と分子の増進法が導入された。
拡張戦略を用いることで,MLモデルの性能が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 12.864696894234715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) has demonstrated the promise for accurate and efficient
property prediction of molecules and crystalline materials. To develop highly
accurate ML models for chemical structure property prediction, datasets with
sufficient samples are required. However, obtaining clean and sufficient data
of chemical properties can be expensive and time-consuming, which greatly
limits the performance of ML models. Inspired by the success of data
augmentations in computer vision and natural language processing, we developed
AugLiChem: the data augmentation library for chemical structures. Augmentation
methods for both crystalline systems and molecules are introduced, which can be
utilized for fingerprint-based ML models and Graph Neural Networks(GNNs). We
show that using our augmentation strategies significantly improves the
performance of ML models, especially when using GNNs. In addition, the
augmentations that we developed can be used as a direct plug-in module during
training and have demonstrated the effectiveness when implemented with
different GNN models through the AugliChem library. The Python-based package
for our implementation of Auglichem: Data augmentation library for chemical
structures, is publicly available at: https://github.com/BaratiLab/AugLiChem.
- Abstract(参考訳): 機械学習(ML)は、分子や結晶材料の正確かつ効率的な特性予測の可能性を実証している。
化学構造特性予測のための高精度なMLモデルを開発するには,十分なサンプルを持つデータセットが必要である。
しかし、化学特性のクリーンで十分なデータを得ることは高価で時間がかかるため、mlモデルの性能は大幅に制限される。
コンピュータビジョンと自然言語処理におけるデータ拡張の成功に触発されて, auglichem: the data augmentation library for chemical structuresを開発した。
指紋ベースのMLモデルやグラフニューラルネットワーク(GNN)に使用できる結晶系と分子の増強手法が導入された。
拡張戦略を用いることで、特にGNNを使用する場合、MLモデルの性能が大幅に向上することを示す。
さらに,我々が開発した拡張は,トレーニング中に直接プラグインモジュールとして使用することができ, auglichemライブラリを通じて異なるgnnモデルで実装した場合の有効性を実証した。
化学構造のためのデータ拡張ライブラリであるAuglichemの実装のためのPythonベースのパッケージは、https://github.com/BaratiLab/AugLiChem.comで公開されている。
関連論文リスト
- Structure to Property: Chemical Element Embeddings and a Deep Learning
Approach for Accurate Prediction of Chemical Properties [0.0]
本稿では,多層エンコーダやデコーダアーキテクチャなどのディープラーニング技術に基づく新しい機械学習モデルを提案する。
有機および無機化合物を含む各種入力データに適用することで,本手法がもたらす機会を実証する。
この研究で使用されるモデルは高い予測力を示し、洗練された機械学習で実現可能な進歩を裏付けるものである。
論文 参考訳(メタデータ) (2023-09-17T19:41:32Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Augmenting Interpretable Models with LLMs during Training [73.40079895413861]
本稿では,効率よく解釈可能なモデルを構築するための拡張解釈モデル (Aug-imodels) を提案する。
Aug-imodel は、フィッティング時に LLM を使用するが、推論中に使用せず、完全な透明性を実現する。
自然言語処理におけるAug-imodelのインスタンス化について検討する: (i) Aug-GAM, (ii) Aug-Tree, (ii) LLM機能拡張による決定木の拡大。
論文 参考訳(メタデータ) (2022-09-23T18:36:01Z) - MolGraph: a Python package for the implementation of molecular graphs
and graph neural networks with TensorFlow and Keras [51.92255321684027]
MolGraphは、分子機械学習(ML)のためのグラフニューラルネットワーク(GNN)パッケージである
MolGraphは、分子ML問題を解決するためにGNNアルゴリズムに渡すことができる小さな分子グラフを生成するための化学モジュールを実装している。
GNNは分子識別に有用であり,クロマトグラフィー保持時間データの解釈性が向上した。
論文 参考訳(メタデータ) (2022-08-21T18:37:41Z) - Crystal Twins: Self-supervised Learning for Crystalline Material
Property Prediction [8.048439531116367]
結晶性物質特性予測のためのSSL法であるCrystal Twins(CT)を紹介する。
我々は、拡張インスタンスのグラフ潜在埋め込みに冗長性低減原理を適用して、グラフニューラルネットワーク(GNN)を事前訓練する。
回帰タスクのGNNを微調整する際の事前学習重みの共有により、7つの課題のある材料特性予測ベンチマークの性能を著しく改善する。
論文 参考訳(メタデータ) (2022-05-04T05:08:46Z) - Benchmarking Graphormer on Large-Scale Molecular Modeling Datasets [87.00711479972503]
このノートには、最近のGraphormerのアップデートについて書かれている。
グローバルな受信フィールドとアダプティブアグリゲーション戦略により、Graphormerは従来のメッセージパッシングベースのGNNよりも強力である。
一方、最近のOpen Catalyst Challengeでは、競合他社よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-03-09T15:40:10Z) - Chemical-Reaction-Aware Molecule Representation Learning [88.79052749877334]
本稿では,化学反応を用いて分子表現の学習を支援することを提案する。
本手法は,1) 埋め込み空間を適切に整理し, 2) 分子埋め込みの一般化能力を向上させるために有効であることが証明された。
実験結果から,本手法は様々なダウンストリームタスクにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2021-09-21T00:08:43Z) - DGL-LifeSci: An Open-Source Toolkit for Deep Learning on Graphs in Life
Science [5.3825788156200565]
DGL-LifeSciは,生命科学におけるグラフの深層学習のためのオープンソースパッケージである。
DGL-LifeSciはRDKit、PyTorch、Deep Graph Libraryをベースにしたピソンツールキットである。
これは、分子特性予測、反応予測、分子生成のためのカスタムデータセットに基づくGNNベースのモデリングを可能にする。
論文 参考訳(メタデータ) (2021-06-27T13:27:47Z) - Scientific Language Models for Biomedical Knowledge Base Completion: An
Empirical Study [62.376800537374024]
我々は,KG の完成に向けた科学的 LM の研究を行い,生物医学的リンク予測を強化するために,その潜在知識を活用できるかどうかを探る。
LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-06-17T17:55:33Z) - A Universal Framework for Featurization of Atomistic Systems [0.0]
物理や機械学習に基づく反応力場は、時間と長さのスケールのギャップを埋めるために使うことができる。
本稿では,原子周囲の電子密度の物理的に関連する多極展開を利用するガウス多極(GMP)デデュール化スキームを紹介する。
我々は,GMPに基づくモデルがQM9データセットの化学的精度を達成できることを示し,新しい要素を外挿してもその精度は妥当であることを示した。
論文 参考訳(メタデータ) (2021-02-04T03:11:00Z) - ML4Chem: A Machine Learning Package for Chemistry and Materials Science [0.0]
ML4Chemは、化学と材料科学のためのオープンソースの機械学習ライブラリである。
機械学習モデルとパイプラインの開発とデプロイのための拡張可能なプラットフォームを提供する。
ここでは、実装、デプロイ、推論のためのアトミックモジュールを紹介します。
論文 参考訳(メタデータ) (2020-03-02T00:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。