論文の概要: When More Data Hurts: Optimizing Data Coverage While Mitigating Diversity Induced Underfitting in an Ultra-Fast Machine-Learned Potential
- arxiv url: http://arxiv.org/abs/2409.07610v1
- Date: Wed, 11 Sep 2024 20:45:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 18:31:44.600917
- Title: When More Data Hurts: Optimizing Data Coverage While Mitigating Diversity Induced Underfitting in an Ultra-Fast Machine-Learned Potential
- Title(参考訳): データ処理量の増加:超高速機械学習による多様性の低下を緩和しながらデータカバレッジを最適化する
- Authors: Jason B. Gibson, Tesia D. Janicki, Ajinkya C. Hire, Chris Bishop, J. Matthew D. Lane, Richard G. Hennig,
- Abstract要約: 本研究では,学習データの多様性が機械学習型原子間ポテンシャル(MLIP)の性能に与える影響について検討する。
専門家と自律的に生成されたデータを使って、トレーニングデータを作成し、4つのフォースフィールドの変種をデータのサブセットに適合させる。
多様性不足は一般化を妨げるが,過度の多様性はMLIPの学習能力を超えうる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine-learned interatomic potentials (MLIPs) are becoming an essential tool in materials modeling. However, optimizing the generation of training data used to parameterize the MLIPs remains a significant challenge. This is because MLIPs can fail when encountering local enviroments too different from those present in the training data. The difficulty of determining \textit{a priori} the environments that will be encountered during molecular dynamics (MD) simulation necessitates diverse, high-quality training data. This study investigates how training data diversity affects the performance of MLIPs using the Ultra-Fast Force Field (UF$^3$) to model amorphous silicon nitride. We employ expert and autonomously generated data to create the training data and fit four force-field variants to subsets of the data. Our findings reveal a critical balance in training data diversity: insufficient diversity hinders generalization, while excessive diversity can exceed the MLIP's learning capacity, reducing simulation accuracy. Specifically, we found that the UF$^3$ variant trained on a subset of the training data, in which nitrogen-rich structures were removed, offered vastly better prediction and simulation accuracy than any other variant. By comparing these UF$^3$ variants, we highlight the nuanced requirements for creating accurate MLIPs, emphasizing the importance of application-specific training data to achieve optimal performance in modeling complex material behaviors.
- Abstract(参考訳): 機械学習型原子間ポテンシャル(MLIP)は材料モデリングにおいて重要なツールになりつつある。
しかし、MLIPのパラメータ化に使用されるトレーニングデータの生成を最適化することは、依然として大きな課題である。
これは、MLIPがトレーニングデータにあるものとは異なるローカル環境に遭遇する際に失敗する可能性があるためである。
分子動力学(MD)シミュレーションで発生する環境を決定するのが困難であることは、多種多様な高品質なトレーニングデータを必要とする。
本研究では,非晶質窒化ケイ素をモデルとした超高速力場(UF$^3$)を用いたMLIPの性能に及ぼすトレーニングデータの多様性の影響について検討した。
専門家と自律的に生成されたデータを用いて、トレーニングデータを作成し、4つのフォースフィールドの変種をデータのサブセットに適合させる。
多様性不足は一般化を妨げるが,過度の多様性はMLIPの学習能力を超え,シミュレーション精度を低下させる可能性がある。
具体的には,窒素量の多い構造を除去したトレーニングデータのサブセットに基づいてトレーニングしたUF$^3$変異体は,他のどの変種よりも予測とシミュレーションの精度が大幅に向上した。
これらのUF$^3$の変種を比較することで、複雑な物質挙動をモデル化する上で、アプリケーション固有のトレーニングデータの重要性を強調し、正確なMLIPを作成するための曖昧な要求を強調します。
関連論文リスト
- An Investigation on Machine Learning Predictive Accuracy Improvement and Uncertainty Reduction using VAE-based Data Augmentation [2.517043342442487]
深層生成学習は、特定のMLモデルを使用して、既存のデータの基盤となる分布を学習し、実際のデータに似た合成サンプルを生成する。
本研究では,変分オートエンコーダ(VAE)を用いた深部生成モデルを用いて,データ拡張の有効性を評価することを目的とする。
本研究では,拡張データを用いてトレーニングしたディープニューラルネットワーク(DNN)モデルの予測において,データ拡張が精度の向上につながるかどうかを検討した。
論文 参考訳(メタデータ) (2024-10-24T18:15:48Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - On the Diversity of Synthetic Data and its Impact on Training Large Language Models [34.00031258223175]
大規模言語モデル(LLM)は、多種多様な高品質な事前学習データの必要性を強調している。
合成データは、データの不足とアクセシビリティの課題に対する、実行可能なソリューションとして現れます。
本研究では, 事前学習および微調整段階における合成データ多様性の下流効果について検討した。
論文 参考訳(メタデータ) (2024-10-19T22:14:07Z) - Simulation-Enhanced Data Augmentation for Machine Learning Pathloss
Prediction [9.664420734674088]
本稿では,機械学習パスロス予測のための新しいシミュレーション強化データ拡張手法を提案する。
本手法は,細胞被覆シミュレータから生成した合成データと,独立して収集した実世界のデータセットを統合する。
合成データの統合は、異なる環境におけるモデルの一般化可能性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-03T00:38:08Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Qualitative Data Augmentation for Performance Prediction in VLSI
circuits [2.1227526213206542]
本研究では,回路データにGANを用いた人工データの生成と評価を行う。
トレーニングデータは、TSMC 180nmおよび22nmCMOS技術ノードを用いたCadence Virtuoso、HSPICE、Microcap設計環境における様々なシミュレーションによって得られる。
実験結果から,提案した人工データ生成はMLモデルを大幅に改善し,元のパーセンテージ誤差の50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2023-02-15T10:14:12Z) - Multi-fidelity Hierarchical Neural Processes [79.0284780825048]
多要素代理モデリングは、異なるシミュレーション出力を融合させることで計算コストを削減する。
本稿では,多階層型階層型ニューラルネットワーク(MF-HNP)を提案する。
疫学および気候モデリングタスクにおけるMF-HNPの評価を行い、精度と不確実性評価の観点から競合性能を達成した。
論文 参考訳(メタデータ) (2022-06-10T04:54:13Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。