論文の概要: Synthetic data enable experiments in atomistic machine learning
- arxiv url: http://arxiv.org/abs/2211.16443v1
- Date: Tue, 29 Nov 2022 18:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 17:59:50.892104
- Title: Synthetic data enable experiments in atomistic machine learning
- Title(参考訳): 合成データが原子論的機械学習の実験を可能にする
- Authors: John L. A. Gardner and Zo\'e Faure Beaulieu and Volker L. Deringer
- Abstract要約: 既存のMLポテンシャルモデルから,原子単位のエネルギーをラベル付けした大規模データセットの使用を実演する。
このプロセスの安価さは、量子力学の土台真実に比べれば、数百万のデータポイントを生成できる。
合成データラベルの学習は、後続の小さなデータセットの微調整に有用な事前学習タスクであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine-learning models are increasingly used to predict properties of atoms
in chemical systems. There have been major advances in developing descriptors
and regression frameworks for this task, typically starting from (relatively)
small sets of quantum-mechanical reference data. Larger datasets of this kind
are becoming available, but remain expensive to generate. Here we demonstrate
the use of a large dataset that we have "synthetically" labelled with per-atom
energies from an existing ML potential model. The cheapness of this process,
compared to the quantum-mechanical ground truth, allows us to generate millions
of datapoints, in turn enabling rapid experimentation with atomistic ML models
from the small- to the large-data regime. This approach allows us here to
compare regression frameworks in depth, and to explore visualisation based on
learned representations. We also show that learning synthetic data labels can
be a useful pre-training task for subsequent fine-tuning on small datasets. In
the future, we expect that our open-sourced dataset, and similar ones, will be
useful in rapidly exploring deep-learning models in the limit of abundant
chemical data.
- Abstract(参考訳): 機械学習モデルは、化学系の原子の性質を予測するためにますます使われている。
このタスクのディスクリプタや回帰フレームワークの開発には大きな進歩があり、典型的には(相対的に)量子力学的参照データの小さなセットから始まる。
この種の大規模なデータセットが利用可能になっているが、生成には高価である。
ここでは、既存のMLポテンシャルモデルから、原子単位のエネルギーをラベル付けした“合成”された大規模なデータセットの使用を実演する。
このプロセスの安価さは、量子力学的基盤の真理と比較して、何百万ものデータポイントを生成し、その結果、小規模から大規模までの原子論的mlモデルの迅速な実験を可能にします。
このアプローチにより、回帰フレームワークを深く比較し、学習した表現に基づいて視覚化を探索することができる。
また,合成データラベルの学習は,小規模データセットの微調整に有用な事前学習課題であることを示す。
将来的には、私たちのオープンソースデータセットや、同様のデータセットが、豊富な化学データに限りなく、ディープラーニングモデルの迅速な探索に役立ちそうです。
関連論文リスト
- Transfer Learning for Molecular Property Predictions from Small Data Sets [0.0]
2つの小さなデータセット上での分子特性の予測のために、一般的な機械学習モデルをベンチマークする。
本稿では,大規模なデータセットを用いて各モデルを事前学習し,元のデータセットを微調整した上で,より正確なモデルを得ることができる転送学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-20T14:25:34Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Synthetic pre-training for neural-network interatomic potentials [0.0]
本研究は,ニューラルネットワークを用いた原子間ポテンシャルモデルにおいて,既存の機械学習ポテンシャルと大規模に比較して得られる合成原子構造データが有用な事前学習課題であることを示す。
一度大きな合成データセットで事前訓練すると、これらのモデルはより小さく、量子力学的なモデルに微調整され、計算の練習における数値的精度と安定性が向上する。
論文 参考訳(メタデータ) (2023-07-24T17:16:24Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Bridge Data Center AI Systems with Edge Computing for Actionable
Information Retrieval [0.5652468989804973]
現代のシンクロトロンおよびX線自由電子レーザーにおける高いデータレートは、データ還元、特徴検出、その他の目的のために機械学習手法の使用を動機付けている。
ここでは、この目的のために、特別なデータセンターAIシステムがどのように使用できるかを説明します。
論文 参考訳(メタデータ) (2021-05-28T16:47:01Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - Forecasting Industrial Aging Processes with Machine Learning Methods [0.0]
我々は、従来のステートレスモデルとより複雑なリカレントニューラルネットワークを比較して、幅広いデータ駆動モデルを評価する。
以上の結果から,リカレントモデルでは,より大きなデータセットでトレーニングした場合,ほぼ完璧な予測が得られた。
論文 参考訳(メタデータ) (2020-02-05T13:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。