論文の概要: From Prediction to Action: Critical Role of Performance Estimation for
Machine-Learning-Driven Materials Discovery
- arxiv url: http://arxiv.org/abs/2311.15549v2
- Date: Thu, 7 Dec 2023 02:08:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 18:01:40.908487
- Title: From Prediction to Action: Critical Role of Performance Estimation for
Machine-Learning-Driven Materials Discovery
- Title(参考訳): 予測から行動へ:機械学習による材料発見における性能推定の重要役割
- Authors: Mario Boley and Felix Luong and Simon Teshuva and Daniel F Schmidt and
Lucas Foppa and Matthias Scheffler
- Abstract要約: 我々は,事前計算したデータ収集から得られる適切な性能推定手法が欠如していることが,データ駆動材料発見の改善の根本的課題であると主張している。
本研究では,「予測された改善」獲得関数を用いてガウス過程の予測を成功させる手法を提案する。
- 参考スコア(独自算出の注目度): 2.3243389656894595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Materials discovery driven by statistical property models is an iterative
decision process, during which an initial data collection is extended with new
data proposed by a model-informed acquisition function--with the goal to
maximize a certain "reward" over time, such as the maximum property value
discovered so far. While the materials science community achieved much progress
in developing property models that predict well on average with respect to the
training distribution, this form of in-distribution performance measurement is
not directly coupled with the discovery reward. This is because an iterative
discovery process has a shifting reward distribution that is
over-proportionally determined by the model performance for exceptional
materials. We demonstrate this problem using the example of bulk modulus
maximization among double perovskite oxides. We find that the in-distribution
predictive performance suggests random forests as superior to Gaussian process
regression, while the results are inverse in terms of the discovery rewards. We
argue that the lack of proper performance estimation methods from pre-computed
data collections is a fundamental problem for improving data-driven materials
discovery, and we propose a novel such estimator that, in contrast to na\"ive
reward estimation, successfully predicts Gaussian processes with the "expected
improvement" acquisition function as the best out of four options in our
demonstrational study for double perovskites. Importantly, it does so without
requiring the over thousand ab initio computations that were needed to confirm
this prediction.
- Abstract(参考訳): 統計特性モデルによって駆動される物質発見は、モデルに変換された取得関数によって提案された新しいデータによって初期データ収集が拡張される反復的な決定プロセスである。
材料科学コミュニティは、トレーニング分布に対して平均的に良好に予測できる特性モデルの開発において大きな進歩を遂げたが、このような分布内性能測定は発見報酬と直接的に結び付いていない。
これは、反復的な発見過程が、例外的な材料に対するモデル性能によって過剰に決定される、シフトする報酬分布を有するためである。
二重ペロブスカイト酸化物のバルク弾性率最大化の例を用いてこの問題を実証する。
分布内予測の結果から,ランダム林はガウス過程の回帰よりも優れているが,発見報酬は逆であることが示唆された。
先行計算データ集合からの適切な性能推定手法の欠如は,データ駆動材料の発見を改善するための根本的な問題であり,na\"ive reward estimationとは対照的に,2重ペロブスカイトに対する実証研究において,ガウス過程の予測に成功し,"expected improvement"獲得関数を最善の4つの選択肢のうちの1つとした。
重要なのは、この予測を確認するのに必要な1000以上のab initio計算を必要としないことだ。
関連論文リスト
- Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Performative Prediction with Bandit Feedback: Learning through
Reparameterization [25.169419772432796]
本研究では,データ分散の関数として性能予測を再パラメータ化するフレームワークを開発する。
提案手法は, モデルパラメータの次元にのみ含まれる, 実演用サンプルの総数に準線形な後悔境界を与える。
アプリケーション側では、YouTubeやTokTokのような大規模オンラインレコメンデーションシステムに有効な方法だと考えています。
論文 参考訳(メタデータ) (2023-05-01T21:31:29Z) - Functional Ensemble Distillation [18.34081591772928]
本研究では,効率的なモデルを用いて,アンサンブルの予測を最もよく蒸留する方法を検討する。
混合増量方式による簡易増量方式による蒸留モデルの学習により, 性能が著しく向上することが判明した。
論文 参考訳(メタデータ) (2022-06-05T14:07:17Z) - An Empirical Study on Distribution Shift Robustness From the Perspective
of Pre-Training and Data Augmentation [91.62129090006745]
本稿では,事前学習とデータ拡張の観点から分布シフト問題を考察する。
我々は,事前学習とデータ拡張に焦点を当てた,最初の総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2022-05-25T13:04:53Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Bayesian Neural Networks for Virtual Flow Metering: An Empirical Study [0.0]
ベイズニューラルネットワークに基づく確率的VFMを提示することにより,データ駆動型仮想フローメータの開発に寄与する。
5つの石油・ガス資産にまたがる60の井戸からなる大規模で異質なデータセットをモデル化し,本手法について検討した。
予測性能は過去のテストデータと将来のテストデータに基づいて分析され,50%の性能モデルの平均誤差は5~6%,9~13%となる。
論文 参考訳(メタデータ) (2021-02-02T09:05:19Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Gaussian Process Boosting [6.85316573653194]
ガウス過程と混合効果モデルを組み合わせた新しい手法を提案する。
シミュレーションおよび実世界のデータセットに対する既存手法と比較して予測精度が向上する。
論文 参考訳(メタデータ) (2020-04-06T13:19:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。