論文の概要: Foundation-Model Surrogates Enable Data-Efficient Active Learning for Materials Discovery
- arxiv url: http://arxiv.org/abs/2603.12567v2
- Date: Tue, 17 Mar 2026 08:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 13:19:43.846622
- Title: Foundation-Model Surrogates Enable Data-Efficient Active Learning for Materials Discovery
- Title(参考訳): Foundation-Modelは、材料発見のためのデータ効率の良いアクティブラーニングを可能にする
- Authors: Jeffrey Hu, Rongzhi Dong, Ying Feng, Ming Hu, Jianjun Hu,
- Abstract要約: In-Context Active Learningは従来のサロゲートをTabPFNに置き換える。
TabPFNは、何百万もの合成回帰タスクで事前訓練されたトランスフォーマーベースの基礎モデルである。
強力な小さなデータレグレッションパフォーマンスと、十分にキャリブレーションされた予測の不確実性を提供します。
- 参考スコア(独自算出の注目度): 12.870479903068665
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Active learning (AL) has emerged as a powerful paradigm for accelerating materials discovery by iteratively steering experiments toward promising candidates, reducing the number of costly synthesis-and-characterization cycles needed to identify optimal materials. However, current AL relies predominantly on Gaussian Process (GP) and Random Forest (RF) surrogates, which suffer from complementary limitations: GP underfits complex composition-property landscapes due to rigid kernel assumptions, while RF produces unreliable heuristic uncertainty estimates in small-data regimes. This small-data challenge is pervasive in materials science, making reliable surrogate modeling extremely difficult with models trained from scratch on each new dataset. Here we propose In-Context Active Learning (ICAL), which addresses this bottleneck by replacing conventional surrogates with TabPFN, a transformer-based foundation model (FM) pre-trained on millions of synthetic regression tasks to meta-learn a universal prior over tabular data, upon which TabPFN performs principled Bayesian inference in a single forward pass without dataset-specific retraining, delivering strong small-data regression performance and well-calibrated predictive uncertainty (required for effective AL). We benchmark ICAL against GP and RF across 10 materials datasets and TabPFN wins on 8 out of 10 datasets, achieving a mean saving of 52% in extra evaluations relative to GP and 29.77% relative to RF. Cross-validation analysis confirms that TabPFN's advantage stems from superior uncertainty calibration, achieving the lowest Negative Log-Likelihood and Area Under the Sparsification Error curve among all surrogates. These results demonstrate that pre-trained FMs can serve as effective surrogates for active learning, enabling data-efficient discovery across diverse materials systems and small-data experimental sciences.
- Abstract(参考訳): アクティブラーニング (AL) は、有望な候補に向けて反復的に実験を行い、最適な材料を特定するのに必要なコストのかかる合成・評価サイクルの数を減らし、材料発見を促進するための強力なパラダイムとして登場した。
しかし、現在のALはガウス過程(GP)とランダムフォレスト(RF)のサロゲートに大きく依存しており、このサロゲートは相補的な制限を被っている。
この小さなデータ課題は、材料科学において広く浸透しており、新しいデータセットごとにスクラッチからトレーニングされたモデルに対して、信頼性の高い代理モデリングを極めて困難にしている。
In-Context Active Learning(ICAL)は、従来のサロゲートを、数百万の合成回帰タスクで事前訓練されたトランスフォーマーベース基礎モデル(FM)であるTabPFNに置き換えることで、このボトルネックに対処する。
10項目中8項目でTabPFNが勝利し,GPに対して52%,RFに対して29.77%の余分な評価が得られた。
クロスバリデーション分析により、TabPFNの利点は優れた不確実性校正に起因することが確認され、全てのサロゲートの中で最小の負対数と面積の誤差曲線が達成される。
これらの結果は、事前学習されたFMが、様々な材料システムや小規模実験科学におけるデータ効率の高い発見を可能にする、アクティブな学習のための効果的なサロゲートとして機能することを実証している。
関連論文リスト
- Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols [123.73663884421272]
より強力な事前訓練モデルと改良された適応アルゴリズムによって、わずかなショット転送が革新されている。
FEWTRANSは10種類のデータセットを含む総合的なベンチマークである。
FEWTRANS をリリースすることにより,数発の転写学習研究において再現性の向上を合理化するための厳密な "ルーラー" の提供を目指す。
論文 参考訳(メタデータ) (2026-02-28T05:41:57Z) - Robust Machine Learning Framework for Reliable Discovery of High-Performance Half-Heusler Thermoelectrics [0.0]
機械学習(ML)は、環境危機に対処するための効率的な熱電(TE)材料発見を促進する。
MLモデルは、高いメトリクスにもかかわらず、しばしば実験的な一般化性に悩まされる。
本研究は、半ハウスラー(hH)構造プロトタイプに適用した頑健なワークフローを有益(zT)予測に適用する。
論文 参考訳(メタデータ) (2026-02-01T10:50:42Z) - Quantum-Aware Generative AI for Materials Discovery: A Framework for Robust Exploration Beyond DFT Biases [0.0]
材料発見のための量子認識型生成AIフレームワークを提案する。
我々は、低忠実度予測と高忠実度予測の分岐を定量化し、ターゲットとする頑健な能動学習ループを実装した。
以上の結果から,高分散領域における潜在的安定候補の同定に成功し,3~5倍の精度向上が得られた。
論文 参考訳(メタデータ) (2025-12-13T11:17:21Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - DispFormer: A Pretrained Transformer Incorporating Physical Constraints for Dispersion Curve Inversion [56.64622091009756]
本研究では、レイリー波位相と群分散曲線からプロファイルインバージョンを$v_s$とするトランスフォーマーベースのニューラルネットワークであるDispFormerを紹介する。
DispFormerは各期間に分散データを個別に処理し、ネットワークの変更やデータセットのトレーニングとテストの厳格な調整を必要とせずに、さまざまな長さを処理できる。
論文 参考訳(メタデータ) (2025-01-08T09:08:24Z) - Transfer Learning for Deep Learning-based Prediction of Lattice Thermal Conductivity [0.0]
深層学習モデル(ParAIsite)の精度と一般化性に及ぼす伝達学習の影響について検討する。
格子熱伝導率(LTC)の低品質近似の大規模なデータセット上で、初めて微調整を行うと、さらに改善が得られた。
有望な結果は、低熱伝導率材料を探索する大きなデータベースを探索する能力を高めるための道を開く。
論文 参考訳(メタデータ) (2024-11-27T11:57:58Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Machine-Learning Prediction of the Computed Band Gaps of Double
Perovskite Materials [3.2798940914359056]
機能性材料の電子構造の予測は新しい装置の工学に不可欠である。
本研究では,2重ペロブスカイト材料の電子構造を機械学習で予測する。
この結果は,期待できる機能材料を迅速にスクリーニングするために,機械学習による回帰の可能性を実証するという意味で重要である。
論文 参考訳(メタデータ) (2023-01-04T08:19:18Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z) - Stochastic-Sign SGD for Federated Learning with Theoretical Guarantees [49.91477656517431]
量子化に基づく解法は、フェデレートラーニング(FL)において広く採用されている。
上記のプロパティをすべて享受する既存のメソッドはありません。
本稿では,SIGNSGDに基づく直感的かつ理論的に簡易な手法を提案し,そのギャップを埋める。
論文 参考訳(メタデータ) (2020-02-25T15:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。