論文の概要: From Prediction to Action: The Critical Role of Proper Performance
Estimation for Machine-Learning-Driven Materials Discovery
- arxiv url: http://arxiv.org/abs/2311.15549v1
- Date: Mon, 27 Nov 2023 05:29:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:05:20.479295
- Title: From Prediction to Action: The Critical Role of Proper Performance
Estimation for Machine-Learning-Driven Materials Discovery
- Title(参考訳): 予測から行動へ:機械学習駆動材料発見における適切な性能推定の重要役割
- Authors: Mario Boley and Felix Luong and Simon Teshuva and Daniel F Schmidt and
Lucas Foppa and Matthias Scheffler
- Abstract要約: 我々は,事前計算したデータ収集から得られる適切な性能推定手法が欠如していることが,データ駆動材料発見の改善の根本的課題であると主張している。
本研究では,「予測された改善」獲得関数を用いてガウス過程の予測を成功させる手法を提案する。
- 参考スコア(独自算出の注目度): 2.3243389656894595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Materials discovery driven by statistical property models is an iterative
decision process, during which an initial data collection is extended with new
data proposed by a model-informed acquisition function--with the goal to
maximize a certain "reward" over time, such as the maximum property value
discovered so far. While the materials science community achieved much progress
in developing property models that predict well on average with respect to the
training distribution, this form of in-distribution performance measurement is
not directly coupled with the discovery reward. This is because an iterative
discovery process has a shifting reward distribution that is
over-proportionally determined by the model performance for exceptional
materials. We demonstrate this problem using the example of bulk modulus
maximization among double perovskite oxides. We find that the in-distribution
predictive performance suggests random forests as superior to Gaussian process
regression, while the results are inverse in terms of the discovery rewards. We
argue that the lack of proper performance estimation methods from pre-computed
data collections is a fundamental problem for improving data-driven materials
discovery, and we propose a novel such estimator that, in contrast to na\"ive
reward estimation, successfully predicts Gaussian processes with the "expected
improvement" acquisition function as the best out of four options in our
demonstrational study for double perovskites. Importantly, it does so without
requiring the over thousand ab initio computations that were needed to confirm
this prediction.
- Abstract(参考訳): 統計特性モデルによって駆動される物質発見は、モデルに変換された取得関数によって提案された新しいデータによって初期データ収集が拡張される反復的な決定プロセスである。
材料科学コミュニティは、トレーニング分布に対して平均的に良好に予測できる特性モデルの開発において大きな進歩を遂げたが、このような分布内性能測定は発見報酬と直接的に結び付いていない。
これは、反復的な発見過程が、例外的な材料に対するモデル性能によって過剰に決定される、シフトする報酬分布を有するためである。
二重ペロブスカイト酸化物のバルク弾性率最大化の例を用いてこの問題を実証する。
分布内予測の結果から,ランダム林はガウス過程の回帰よりも優れているが,発見報酬は逆であることが示唆された。
先行計算データ集合からの適切な性能推定手法の欠如は,データ駆動材料の発見を改善するための根本的な問題であり,na\"ive reward estimationとは対照的に,2重ペロブスカイトに対する実証研究において,ガウス過程の予測に成功し,"expected improvement"獲得関数を最善の4つの選択肢のうちの1つとした。
重要なのは、この予測を確認するのに必要な1000以上のab initio計算を必要としないことだ。
関連論文リスト
- Learning Augmentation Policies from A Model Zoo for Time Series Forecasting [58.66211334969299]
本稿では,強化学習に基づく学習可能なデータ拡張手法であるAutoTSAugを紹介する。
限界サンプルを学習可能なポリシーで強化することにより、AutoTSAugは予測性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Ranking and Combining Latent Structured Predictive Scores without Labeled Data [2.5064967708371553]
本稿では,新しい教師なしアンサンブル学習モデル(SUEL)を提案する。
連続的な予測スコアを持つ予測器のセット間の依存関係を利用して、ラベル付きデータなしで予測器をランク付けし、それらをアンサンブルされたスコアに重み付けする。
提案手法の有効性は、シミュレーション研究とリスク遺伝子発見の現実的応用の両方を通じて厳密に評価されている。
論文 参考訳(メタデータ) (2024-08-14T20:14:42Z) - Source-Free Domain-Invariant Performance Prediction [68.39031800809553]
本研究では,不確実性に基づく推定を主軸としたソースフリー手法を提案する。
オブジェクト認識データセットのベンチマーク実験により、既存のソースベースの手法は、限られたソースサンプルの可用性で不足していることが判明した。
提案手法は,現在の最先端のソースフリーおよびソースベース手法よりも優れており,ドメイン不変性能推定の有効性が確認されている。
論文 参考訳(メタデータ) (2024-08-05T03:18:58Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Performative Prediction with Bandit Feedback: Learning through Reparameterization [23.039885534575966]
行動予測は、データの分布自体がモデルの展開に応じて変化する社会予測を研究するためのフレームワークである。
本研究では,実行予測目標をデータ分散関数として再パラメータ化する再パラメータ化を開発する。
論文 参考訳(メタデータ) (2023-05-01T21:31:29Z) - Functional Ensemble Distillation [18.34081591772928]
本研究では,効率的なモデルを用いて,アンサンブルの予測を最もよく蒸留する方法を検討する。
混合増量方式による簡易増量方式による蒸留モデルの学習により, 性能が著しく向上することが判明した。
論文 参考訳(メタデータ) (2022-06-05T14:07:17Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Gaussian Process Boosting [13.162429430481982]
ガウス過程と混合効果モデルを組み合わせた新しい手法を提案する。
シミュレーションおよび実世界のデータセットに対する既存手法と比較して予測精度が向上する。
論文 参考訳(メタデータ) (2020-04-06T13:19:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。