論文の概要: BOOM: Benchmarking Out-Of-distribution Molecular Property Predictions of Machine Learning Models
- arxiv url: http://arxiv.org/abs/2505.01912v1
- Date: Sat, 03 May 2025 19:51:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.327814
- Title: BOOM: Benchmarking Out-Of-distribution Molecular Property Predictions of Machine Learning Models
- Title(参考訳): BOOM:機械学習モデルの外部分布分子特性予測のベンチマーク
- Authors: Evan R. Antoniuk, Shehtab Zaman, Tal Ben-Nun, Peggy Li, James Diffenderfer, Busra Demirci, Obadiah Smolenski, Tim Hsu, Anna M. Hiszpanski, Kenneth Chiu, Bhavya Kailkhura, Brian Van Essen,
- Abstract要約: BOOM, $boldsymbolb$enchmarks for $boldsymbolo$f-distribution $boldsymbolm$olecular property predictions。
我々は、OOD性能に関するディープラーニングモデルをベンチマークするために、140以上のモデルの組み合わせとプロパティ予測タスクを評価した。
全体として、すべてのタスクにまたがる強力なOOD一般化を実現する既存のモデルは見つからない。
- 参考スコア(独自算出の注目度): 12.92528375287641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in deep learning and generative modeling have driven interest in data-driven molecule discovery pipelines, whereby machine learning (ML) models are used to filter and design novel molecules without requiring prohibitively expensive first-principles simulations. Although the discovery of novel molecules that extend the boundaries of known chemistry requires accurate out-of-distribution (OOD) predictions, ML models often struggle to generalize OOD. Furthermore, there are currently no systematic benchmarks for molecular OOD prediction tasks. We present BOOM, $\boldsymbol{b}$enchmarks for $\boldsymbol{o}$ut-$\boldsymbol{o}$f-distribution $\boldsymbol{m}$olecular property predictions -- a benchmark study of property-based out-of-distribution models for common molecular property prediction models. We evaluate more than 140 combinations of models and property prediction tasks to benchmark deep learning models on their OOD performance. Overall, we do not find any existing models that achieve strong OOD generalization across all tasks: even the top performing model exhibited an average OOD error 3x larger than in-distribution. We find that deep learning models with high inductive bias can perform well on OOD tasks with simple, specific properties. Although chemical foundation models with transfer and in-context learning offer a promising solution for limited training data scenarios, we find that current foundation models do not show strong OOD extrapolation capabilities. We perform extensive ablation experiments to highlight how OOD performance is impacted by data generation, pre-training, hyperparameter optimization, model architecture, and molecular representation. We propose that developing ML models with strong OOD generalization is a new frontier challenge in chemical ML model development. This open-source benchmark will be made available on Github.
- Abstract(参考訳): ディープラーニングと生成モデリングの進歩は、データ駆動型分子発見パイプラインへの関心を惹き付け、機械学習(ML)モデルは、違法に高価な第一原理シミュレーションを必要とせず、新しい分子をフィルタリングして設計するために使用される。
既知の化学の境界を拡張する新しい分子の発見には正確な分布外予測(OOD)が必要であるが、MLモデルはOODの一般化に苦慮することが多い。
さらに、現在、分子OOD予測タスクの体系的なベンチマークは存在しない。
BOOM, $\boldsymbol{b}$enchmarks for $\boldsymbol{o}$ut-$\boldsymbol{o}$f-distribution $\boldsymbol{m}$olecular property predictions -- 共通分子特性予測モデルのためのプロパティベースの分布モデルに関するベンチマーク研究。
我々は、OOD性能に関するディープラーニングモデルをベンチマークするために、140以上のモデルの組み合わせとプロパティ予測タスクを評価した。
全体として、全てのタスクに対して強力なOOD一般化を実現する既存のモデルは見つからない。
帰納バイアスの高いディープラーニングモデルは、単純で特異な特性を持つOODタスクでうまく機能する。
移動および文脈内学習を伴う化学基礎モデルは、限られた訓練データシナリオに対して有望なソリューションを提供するが、現在の基礎モデルは強力なOOD補間能力を示していない。
我々は、OODの性能がデータ生成、事前トレーニング、ハイパーパラメータ最適化、モデルアーキテクチャ、分子表現にどのように影響するかを明らかにするために、広範囲にわたるアブレーション実験を行った。
我々は,化学MLモデル開発における新たなフロンティア課題として,強力なOOD一般化を用いたMLモデルの開発を提案する。
このオープンソースベンチマークはGithubで公開される予定だ。
関連論文リスト
- Jet: A Modern Transformer-Based Normalizing Flow [62.2573739835562]
本稿では,結合型正規化フローモデルの設計を再考する。
よりシンプルなアーキテクチャで、最先端の定量的、質的なパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-12-19T18:09:42Z) - Can OOD Object Detectors Learn from Foundation Models? [56.03404530594071]
アウト・オブ・ディストリビューション(OOD)オブジェクト検出は、オープンセットのOODデータがないため、難しい課題である。
テキストから画像への生成モデルの最近の進歩に触発されて,大規模オープンセットデータを用いて訓練された生成モデルがOODサンプルを合成する可能性について検討した。
SyncOODは,大規模基盤モデルの能力を活用するシンプルなデータキュレーション手法である。
論文 参考訳(メタデータ) (2024-09-08T17:28:22Z) - Out-of-distribution materials property prediction using adversarial learning based fine-tuning [0.0]
本稿では,特定のデータセットに適応させるための微調整アプローチをターゲットとした逆学習を提案する。
実験では,限られたサンプルを持つMLにおいて,CALアルゴリズムの成功を高い有効性で実証した。
論文 参考訳(メタデータ) (2024-08-17T21:22:21Z) - Structure-based out-of-distribution (OOD) materials property prediction:
a benchmark study [1.3711992220025948]
本稿では,構造ベースグラフニューラルネットワーク(GNN)を用いたOOD材料特性予測のためのベンチマーク研究を行う。
実験の結果,現在最先端のGNNアルゴリズムはOOD特性予測タスクでは著しく性能が劣っていることがわかった。
CGCNN、ALIGNN、DeeperGATGNNのOOD性能は、現在のベストモデルよりもはるかに堅牢である。
論文 参考訳(メタデータ) (2024-01-16T01:03:39Z) - End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control [45.84205238554709]
本研究では, (e)NMPCの一部として最適性能を示すために, Koopman シュロゲートモデルの強化学習法を提案する。
エンドツーエンドトレーニングモデルは,(e)NMPCにおけるシステム識別を用いてトレーニングしたモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T10:21:53Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - BEDS-Bench: Behavior of EHR-models under Distributional Shift--A
Benchmark [21.040754460129854]
OOD設定下でのEHRデータ上でのMLモデルの振る舞いを定量化するベンチマークであるBEDS-Benchをリリースする。
BEDS-Bench の学習アルゴリズムを複数評価した結果,一般に分布シフト下での一般化性能の低下が判明した。
論文 参考訳(メタデータ) (2021-07-17T05:53:24Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。