論文の概要: From Molecules to Materials: Pre-training Large Generalizable Models for
Atomic Property Prediction
- arxiv url: http://arxiv.org/abs/2310.16802v1
- Date: Wed, 25 Oct 2023 17:32:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:22:34.115998
- Title: From Molecules to Materials: Pre-training Large Generalizable Models for
Atomic Property Prediction
- Title(参考訳): 分子から物質へ:原子特性予測のための大規模一般化モデルの事前学習
- Authors: Nima Shoghi, Adeesh Kolluru, John R. Kitchin, Zachary W. Ulissi, C.
Lawrence Zitnick, Brandon M. Wood
- Abstract要約: 合同マルチドメイン事前訓練(JMP)は、異なる化学ドメインから複数のデータセットを同時にトレーニングする教師付き事前訓練戦略である。
JMPは、スクラッチからトレーニングまでの平均59%の改善を示し、40タスク中34タスクで最先端のタスクをマッチまたはセットする。
- 参考スコア(独自算出の注目度): 3.0228689835991496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have been transformational in machine learning fields such
as natural language processing and computer vision. Similar success in atomic
property prediction has been limited due to the challenges of training
effective models across multiple chemical domains. To address this, we
introduce Joint Multi-domain Pre-training (JMP), a supervised pre-training
strategy that simultaneously trains on multiple datasets from different
chemical domains, treating each dataset as a unique pre-training task within a
multi-task framework. Our combined training dataset consists of $\sim$120M
systems from OC20, OC22, ANI-1x, and Transition-1x. We evaluate performance and
generalization by fine-tuning over a diverse set of downstream tasks and
datasets including: QM9, rMD17, MatBench, QMOF, SPICE, and MD22. JMP
demonstrates an average improvement of 59% over training from scratch, and
matches or sets state-of-the-art on 34 out of 40 tasks. Our work highlights the
potential of pre-training strategies that utilize diverse data to advance
property prediction across chemical domains, especially for low-data tasks.
- Abstract(参考訳): ファンデーションモデルは自然言語処理やコンピュータビジョンといった機械学習分野に変化をもたらした。
原子特性予測の同様の成功は、複数の化学ドメインにまたがる効果的なモデルを訓練することの難しさによって制限されている。
これを解決するために、JMP(Joint Multi-domain Pre-Training)を導入し、異なる化学領域から複数のデータセットを同時にトレーニングし、各データセットをマルチタスクフレームワーク内のユニークな事前トレーニングタスクとして扱う。
統合トレーニングデータセットはOC20,OC22,ANI-1x,Transition-1xの$\sim$120Mシステムで構成される。
QM9, rMD17, MatBench, QMOF, SPICE, MD22など,様々な下流タスクやデータセットを微調整して, 性能と一般化を評価する。
JMPは、スクラッチからトレーニングまでの平均59%の改善を示し、40タスク中34タスクで最先端のタスクをマッチまたはセットする。
我々の研究は、化学ドメイン、特に低データタスクのプロパティ予測に多様なデータを利用する事前学習戦略の可能性を強調している。
関連論文リスト
- MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。
事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。
SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。
我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文 参考訳(メタデータ) (2024-03-20T09:17:22Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Multiple Physics Pretraining for Physical Surrogate Models [42.19323262199993]
物理代理モデルのための自己回帰型タスク非依存型事前学習手法である多重物理事前学習(MPP)を導入する。
我々は,幅広い流体力学のベンチマークを用いて,事前学習と下流作業に対するアプローチの有効性を検証した。
下流タスクでは、MPPを訓練したモデルを微調整することで、新しい物理の複数の時間ステップでより正確な予測が可能になることを実証する。
論文 参考訳(メタデータ) (2023-10-04T17:29:19Z) - Multi-Level Contrastive Learning for Dense Prediction Task [59.591755258395594]
本稿では,高密度予測タスクのための領域レベルの特徴表現を効率よく学習するための,MCL(Multi-Level Contrastive Learning for Dense Prediction Task)を提案する。
本手法は, 局所化, スケールの整合性, 認識の3つの要因に動機付けられている。
提案手法は,様々なデータセットにおける最近の最先端の手法よりも有意なマージンを有する。
論文 参考訳(メタデータ) (2023-04-04T17:59:04Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - GPPF: A General Perception Pre-training Framework via Sparsely Activated
Multi-Task Learning [23.15735672234869]
本稿では,タスクレベルの動的ネットワークを事前学習するための一般知覚事前学習フレームワークであるGPPFを提案する。
複雑な環境で学習する能力を調べることによって、3つの重要な要素を深層ネットワークに認識し、伝達する。
SIMT (Single Iteration Multiple Tasks) の同時学習を支援するプラグイン・アンド・プレイ型マルチタスク学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-08-03T15:34:35Z) - GenHPF: General Healthcare Predictive Framework with Multi-task
Multi-source Learning [9.406539794019581]
General Healthcare Predictive Framework (GenHPF) は、複数の予測タスクに対して最小限の事前処理を持つ任意の EHR に適用可能である。
我々のフレームワークは、マルチソース学習においてドメイン知識を利用するベースラインモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-07-20T12:46:26Z) - Unsupervised Pre-Training on Patient Population Graphs for Patient-Level
Predictions [48.02011627390706]
プレトレーニングは、コンピュータビジョン(CV)、自然言語処理(NLP)、医療画像など、機械学習のさまざまな分野で成功している。
本稿では,患者結果の予測のために,教師なし事前学習を異種マルチモーダルEHRデータに適用する。
提案手法は,人口レベルでのデータモデリングに有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-23T17:59:45Z) - SMART: Simultaneous Multi-Agent Recurrent Trajectory Prediction [72.37440317774556]
本稿では,将来の軌道予測における2つの重要な課題に対処する手法を提案する。
エージェントの数に関係なく、トレーニングデータと予測と一定時間の推測の両方において、マルチモーダリティ。
論文 参考訳(メタデータ) (2020-07-26T08:17:10Z) - Meta-Learning GNN Initializations for Low-Resource Molecular Property
Prediction [0.0]
モデル非依存メタラーニング(MAML)アルゴリズムにより学習したグラフニューラルネットワークの初期化の化学特性および活動タスクへの伝達性を評価する。
低リソース設定をエミュレートするためにChEMBL20データセットを使用して、我々のベンチマークは、メタ初期化がマルチタスク事前学習ベースラインと互換性があるか、あるいは性能が優れていることを示している。
最後に、メタ初期化は16, 32, 64, 18, 256$インスタンスで$kの微調整セットをまたいだ最高のパフォーマンスモデルをもたらすことを観察する。
論文 参考訳(メタデータ) (2020-03-12T19:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。