論文の概要: Investigating Data Hierarchies in Multifidelity Machine Learning for Excitation Energies
- arxiv url: http://arxiv.org/abs/2410.11392v1
- Date: Tue, 15 Oct 2024 08:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:00:22.470944
- Title: Investigating Data Hierarchies in Multifidelity Machine Learning for Excitation Energies
- Title(参考訳): 励磁エネルギーのための多要素機械学習におけるデータ階層の検討
- Authors: Vivin Vinod, Peter Zaspel,
- Abstract要約: 本研究では,QeMFiベンチマークを用いた鉛直励起エネルギー予測におけるモデル効率と精度に対する$gamma$の修正の影響について検討した。
MFMLの新たな誤差距離、誤差輪郭は、各忠実度からのモデル誤差寄与の包括的ビューを提供するために提案される。
実験結果から, 対象忠実度が低い場合, 目標忠実度において2つのトレーニングサンプルのみを用いて, モデル精度を向上できることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent progress in machine learning (ML) has made high-accuracy quantum chemistry (QC) calculations more accessible. Of particular interest are multifidelity machine learning (MFML) methods where training data from differing accuracies or fidelities are used. These methods usually employ a fixed scaling factor, $\gamma$, to relate the number of training samples across different fidelities, which reflects the cost and assumed sparsity of the data. This study investigates the impact of modifying $\gamma$ on model efficiency and accuracy for the prediction of vertical excitation energies using the QeMFi benchmark dataset. Further, this work introduces QC compute time informed scaling factors, denoted as $\theta$, that vary based on QC compute times at different fidelities. A novel error metric, error contours of MFML, is proposed to provide a comprehensive view of model error contributions from each fidelity. The results indicate that high model accuracy can be achieved with just 2 training samples at the target fidelity when a larger number of samples from lower fidelities are used. This is further illustrated through a novel concept, the $\Gamma$-curve, which compares model error against the time-cost of generating training samples, demonstrating that multifidelity models can achieve high accuracy while minimizing training data costs.
- Abstract(参考訳): 機械学習(ML)の最近の進歩により、高精度量子化学(QC)計算がよりアクセスしやすくなっている。
特に興味深いのは、異なるアキュラシーやフィデリティからのトレーニングデータを使用するマルチフィデリティ機械学習(MFML)手法である。
これらの手法は、通常、固定スケーリング係数である$\gamma$を使用して、異なる忠実度にわたるトレーニングサンプルの数を関連づける。
本研究では,QeMFiベンチマークを用いた鉛直励起エネルギー予測におけるモデル効率と精度に対する$\gamma$の修正の影響について検討した。
さらに、この研究は、異なる忠実度におけるQC計算時間に基づいて異なる$\theta$と表記されるQC計算時間情報スケーリング因子を導入している。
MFMLの新たな誤差距離、誤差輪郭は、各忠実度からのモデル誤差寄与の包括的ビューを提供するために提案される。
実験結果から, 対象忠実度が低い場合, 目標忠実度において2つのトレーニングサンプルのみを用いて, モデル精度を向上できることが示唆された。
これは、新しい概念である$\Gamma$-curveで、モデルエラーとトレーニングサンプルの生成時間コストを比較し、トレーニングデータコストを最小化しながら、マルチ忠実性モデルが高い精度を達成することを実証している。
関連論文リスト
- Transfer Learning on Multi-Dimensional Data: A Novel Approach to Neural Network-Based Surrogate Modeling [0.0]
畳み込みニューラルネットワーク(CNN)はそのようなサロゲートモデルの基礎として人気を集めている。
本稿では,$d$次元問題と$d-1$次元近似の両方に対する数値解の混合によるCNN代理モデルのトレーニングを提案する。
転送学習を用いて,2種類のデータに対して,高密度な完全畳み込みエンコーダ・デコーダCNNを学習する多相フローテスト問題に対するアプローチを実証する。
論文 参考訳(メタデータ) (2024-10-16T05:07:48Z) - Benchmarking Data Efficiency in $Δ$-ML and Multifidelity Models for Quantum Chemistry [0.0]
この研究は、$Delta$-ML、MFML、最適化されたMFML(o-MFML)に関連するデータコストを比較する。
以上の結果から,マルチ忠実度法は,多くの予測を行う場合の標準$Delta$-ML手法を超えることが示唆された。
論文 参考訳(メタデータ) (2024-10-15T08:34:32Z) - Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Assessing Non-Nested Configurations of Multifidelity Machine Learning for Quantum-Chemical Properties [0.0]
量子化学(QC)特性に対するMFML(Multifidelity Machine Learning)は近年,強力な発展を遂げている。
本研究は,MFMLと最適化MFMLの2つの手法における非ネステッドトレーニングデータの利用を評価する。
論文 参考訳(メタデータ) (2024-07-24T08:34:08Z) - Multifidelity linear regression for scientific machine learning from scarce data [0.0]
本稿では,線形回帰を用いた科学機械学習のための多面的学習手法を提案する。
我々は,提案手法の精度を保証し,高忠実度データの少ないロバスト性を向上する新しい推定器のバイアスと分散分析を行う。
論文 参考訳(メタデータ) (2024-03-13T15:40:17Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Multi-fidelity Hierarchical Neural Processes [79.0284780825048]
多要素代理モデリングは、異なるシミュレーション出力を融合させることで計算コストを削減する。
本稿では,多階層型階層型ニューラルネットワーク(MF-HNP)を提案する。
疫学および気候モデリングタスクにおけるMF-HNPの評価を行い、精度と不確実性評価の観点から競合性能を達成した。
論文 参考訳(メタデータ) (2022-06-10T04:54:13Z) - Adaptive Reliability Analysis for Multi-fidelity Models using a
Collective Learning Strategy [6.368679897630892]
本研究は,信頼性解析のための適応多忠実ガウス法(adaptive multi-fidelity Gaussian process for reliability analysis,AMGPRA)という新しい手法を提案する。
提案手法は,最先端の単相・多相の手法と比較して計算コストを削減し,類似あるいは高い精度を実現する。
AMGPRAのキーとなる応用は、複雑で高価な物理ベースの計算モデルを用いた高忠実度不安定性モデリングである。
論文 参考訳(メタデータ) (2021-09-21T14:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。