論文の概要: Machine Learning Force Fields with Data Cost Aware Training
- arxiv url: http://arxiv.org/abs/2306.03109v1
- Date: Mon, 5 Jun 2023 04:34:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 19:09:55.141865
- Title: Machine Learning Force Fields with Data Cost Aware Training
- Title(参考訳): データコスト対応トレーニングを用いた機械学習力場
- Authors: Alexander Bukharin, Tianyi Liu, Shengjie Wang, Simiao Zuo, Weihao Gao,
Wen Yan, Tuo Zhao
- Abstract要約: 分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
- 参考スコア(独自算出の注目度): 94.78998399180519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning force fields (MLFF) have been proposed to accelerate
molecular dynamics (MD) simulation, which finds widespread applications in
chemistry and biomedical research. Even for the most data-efficient MLFFs,
reaching chemical accuracy can require hundreds of frames of force and energy
labels generated by expensive quantum mechanical algorithms, which may scale as
$O(n^3)$ to $O(n^7)$, with $n$ proportional to the number of basis functions.
To address this issue, we propose a multi-stage computational framework --
ASTEROID, which lowers the data cost of MLFFs by leveraging a combination of
cheap inaccurate data and expensive accurate data. The motivation behind
ASTEROID is that inaccurate data, though incurring large bias, can help capture
the sophisticated structures of the underlying force field. Therefore, we first
train a MLFF model on a large amount of inaccurate training data, employing a
bias-aware loss function to prevent the model from overfitting tahe potential
bias of this data. We then fine-tune the obtained model using a small amount of
accurate training data, which preserves the knowledge learned from the
inaccurate training data while significantly improving the model's accuracy.
Moreover, we propose a variant of ASTEROID based on score matching for the
setting where the inaccurate training data are unlabeled. Extensive experiments
on MD datasets and downstream tasks validate the efficacy of ASTEROID. Our code
and data are available at https://github.com/abukharin3/asteroid.
- Abstract(参考訳): 機械学習力場(MLFF)は分子動力学(MD)シミュレーションを加速するために提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには、高価な量子力学アルゴリズムによって生成される数百フレームの力とエネルギーのラベルが必要であり、基礎関数の数に比例して$O(n^3)$から$O(n^7)$にスケールすることができる。
この問題を解決するために,安価な不正確なデータと高価な正確なデータの組み合わせを利用してMLFFのデータコストを下げる多段階計算フレームワーク-ASTEROIDを提案する。
ASTEROIDの背後にある動機は、不正確なデータが大きなバイアスを伴っても、基礎となる力場の洗練された構造を捉えるのに役立つことである。
そこで,我々はまず,MLFFモデルを大量の不正確なトレーニングデータに基づいて訓練し,バイアス認識損失関数を用いて,モデルがこのデータのテハポテンシャルバイアス過多を防止する。
得られたモデルを少量の正確なトレーニングデータを用いて微調整し、不正確なトレーニングデータから得られた知識を保存し、モデルの精度を大幅に向上させる。
さらに,不正確なトレーニングデータがラベル付けされていない設定に対して,スコアマッチングに基づくASTEROIDの変種を提案する。
MDデータセットと下流タスクに関する大規模な実験は、ASTEROIDの有効性を検証する。
私たちのコードとデータはhttps://github.com/abukharin3/asteroidで入手できます。
関連論文リスト
- An Investigation on Machine Learning Predictive Accuracy Improvement and Uncertainty Reduction using VAE-based Data Augmentation [2.517043342442487]
深層生成学習は、特定のMLモデルを使用して、既存のデータの基盤となる分布を学習し、実際のデータに似た合成サンプルを生成する。
本研究では,変分オートエンコーダ(VAE)を用いた深部生成モデルを用いて,データ拡張の有効性を評価することを目的とする。
本研究では,拡張データを用いてトレーニングしたディープニューラルネットワーク(DNN)モデルの予測において,データ拡張が精度の向上につながるかどうかを検討した。
論文 参考訳(メタデータ) (2024-10-24T18:15:48Z) - When More Data Hurts: Optimizing Data Coverage While Mitigating Diversity Induced Underfitting in an Ultra-Fast Machine-Learned Potential [0.0]
本研究では,学習データの多様性が機械学習型原子間ポテンシャル(MLIP)の性能に与える影響について検討する。
専門家と自律的に生成されたデータを使って、トレーニングデータを作成し、4つのフォースフィールドの変種をデータのサブセットに適合させる。
多様性不足は一般化を妨げるが,過度の多様性はMLIPの学習能力を超えうる。
論文 参考訳(メタデータ) (2024-09-11T20:45:44Z) - Transfer Learning for Molecular Property Predictions from Small Data Sets [0.0]
2つの小さなデータセット上での分子特性の予測のために、一般的な機械学習モデルをベンチマークする。
本稿では,大規模なデータセットを用いて各モデルを事前学習し,元のデータセットを微調整した上で,より正確なモデルを得ることができる転送学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-20T14:25:34Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Leveraging variational autoencoders for multiple data imputation [0.5156484100374059]
本稿では,複数の計算手法を用いて,データ欠落を考慮に入れた深部モデル,すなわち変分オートエンコーダ(VAE)について検討する。
VAEは、過小評価と過信な計算によって、欠落したデータの経験的カバレッジを低くすることがわかった。
これを克服するために、一般化されたベイズフレームワークから見た$beta$-VAEsを用いて、モデルの誤特定に対して堅牢性を提供する。
論文 参考訳(メタデータ) (2022-09-30T08:58:43Z) - Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文 参考訳(メタデータ) (2022-08-24T23:18:08Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - HYDRA: Hypergradient Data Relevance Analysis for Interpreting Deep
Neural Networks [51.143054943431665]
本稿では、深層ニューラルネットワーク(DNN)による予測をトレーニングデータの効果として解釈する高次データ関連分析(HYDRA)を提案する。
HYDRAは、トレーニング軌跡全体を通して、テストデータポイントに対するトレーニングデータの貢献を評価する。
さらに,HyDRAは,データのコントリビューションを正確に推定し,ノイズのあるデータラベルを検出することで,影響関数よりも優れていることを定量的に示す。
論文 参考訳(メタデータ) (2021-02-04T10:00:13Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。