論文の概要: Towards Foundational Models for Molecular Learning on Large-Scale
Multi-Task Datasets
- arxiv url: http://arxiv.org/abs/2310.04292v3
- Date: Wed, 18 Oct 2023 11:06:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 19:08:02.179085
- Title: Towards Foundational Models for Molecular Learning on Large-Scale
Multi-Task Datasets
- Title(参考訳): 大規模マルチタスクデータセットにおける分子学習の基礎モデルに向けて
- Authors: Dominique Beaini, Shenyang Huang, Joao Alex Cunha, Zhiyi Li, Gabriela
Moisescu-Pareja, Oleksandr Dymov, Samuel Maddrell-Mander, Callum McLean,
Frederik Wenkel, Luis M\"uller, Jama Hussein Mohamud, Ali Parviz, Michael
Craig, Micha{\l} Koziarski, Jiarui Lu, Zhaocheng Zhu, Cristian Gabellini,
Kerstin Klaser, Josef Dean, Cas Wognum, Maciej Sypetkowski, Guillaume
Rabusseau, Reihaneh Rabbany, Jian Tang, Christopher Morris, Ioannis Koutis,
Mirco Ravanelli, Guy Wolf, Prudencio Tossou, Hadrien Mary, Therence Bois,
Andrew Fitzgibbon, B{\l}a\.zej Banaszewski, Chad Martin, Dominic Masters
- Abstract要約: ToyMix, LargeMix, UltraLargeの3つのカテゴリに分類される。
これらのデータセットは、分子学習のための教師付きラベルのスケールと多様性の両方の境界を押し上げます。
また,提案したデータセットに基づく基礎モデルの開発を支援するため,Graphiumグラフ機械学習ライブラリを提案する。
- 参考スコア(独自算出の注目度): 42.401713168958445
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, pre-trained foundation models have enabled significant advancements
in multiple fields. In molecular machine learning, however, where datasets are
often hand-curated, and hence typically small, the lack of datasets with
labeled features, and codebases to manage those datasets, has hindered the
development of foundation models. In this work, we present seven novel datasets
categorized by size into three distinct categories: ToyMix, LargeMix and
UltraLarge. These datasets push the boundaries in both the scale and the
diversity of supervised labels for molecular learning. They cover nearly 100
million molecules and over 3000 sparsely defined tasks, totaling more than 13
billion individual labels of both quantum and biological nature. In comparison,
our datasets contain 300 times more data points than the widely used OGB-LSC
PCQM4Mv2 dataset, and 13 times more than the quantum-only QM1B dataset. In
addition, to support the development of foundational models based on our
proposed datasets, we present the Graphium graph machine learning library which
simplifies the process of building and training molecular machine learning
models for multi-task and multi-level molecular datasets. Finally, we present a
range of baseline results as a starting point of multi-task and multi-level
training on these datasets. Empirically, we observe that performance on
low-resource biological datasets show improvement by also training on large
amounts of quantum data. This indicates that there may be potential in
multi-task and multi-level training of a foundation model and fine-tuning it to
resource-constrained downstream tasks.
- Abstract(参考訳): 近年、事前訓練された基礎モデルによって、複数の分野で大きな進歩がもたらされている。
しかし、分子機械学習では、しばしばデータセットが手作業で計算されるため、通常は小さくなっているため、ラベル付き特徴を持つデータセットやそれらのデータセットを管理するコードベースが欠如しているため、基礎モデルの開発が妨げられている。
本研究では,ToyMix,Large,UltraLargeの3つのカテゴリに分類した7つの新しいデータセットを提案する。
これらのデータセットは、分子学習のための教師付きラベルのスケールと多様性の両方の境界を押し上げる。
それらは1億近い分子と3000あまりの小さなタスクをカバーし、合計130億個以上の量子と生物のラベルがある。
比較すると、我々のデータセットは、広く使われているOGB-LSC PCQM4Mv2データセットの300倍のデータポイントを含み、量子のみのQM1Bデータセットの13倍である。
さらに,提案するデータセットに基づく基礎モデルの開発を支援するために,マルチタスクおよびマルチレベル分子データセットのための分子機械学習モデルの構築とトレーニングのプロセスを簡素化するgraphium graph machine learning libraryを提案する。
最後に,これらのデータセット上でのマルチタスクおよびマルチレベルトレーニングの出発点として,ベースライン結果の範囲を提案する。
実験により、低リソースの生物データセットの性能は、大量の量子データをトレーニングすることで改善されることを示した。
これは、基礎モデルのマルチタスクおよびマルチレベルトレーニングと、リソース制約された下流タスクへの微調整の可能性を示唆している。
関連論文リスト
- Physical Consistency Bridges Heterogeneous Data in Molecular Multi-Task Learning [79.75718786477638]
我々は、それらを接続する物理法則が存在する分子的タスクの専門性を生かし、整合性トレーニングアプローチを設計する。
より正確なエネルギーデータにより、構造予測の精度が向上することを示した。
また、整合性トレーニングは、構造予測を改善するために、力と非平衡構造データを直接活用できることがわかった。
論文 参考訳(メタデータ) (2024-10-14T03:11:33Z) - A Large Encoder-Decoder Family of Foundation Models For Chemical Language [1.1073864511426255]
本稿では,PubChemから得られた9100万個のSMILESサンプルを事前学習した大規模エンコーダ・デコーダ化学基礎モデルを提案する。
複数のベンチマークデータセットにまたがる実験は、様々なタスクに対して最先端の結果を提供する際に提案したモデルのキャパシティを検証する。
論文 参考訳(メタデータ) (2024-07-24T20:30:39Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Multi-Task Self-Training for Learning General Representations [97.01728635294879]
マルチタスク・セルフトレーニング(MuST)は、独立した専門教師モデルにおける知識を活用して、一人の一般学生モデルを訓練する。
MuSTはラベルなしまたは部分的にラベル付けされたデータセットでスケーラブルで、大規模データセットのトレーニングにおいて、特別な教師付きモデルとセルフ教師付きモデルの両方を上回っている。
論文 参考訳(メタデータ) (2021-08-25T17:20:50Z) - OmiEmbed: reconstruct comprehensive phenotypic information from
multi-omics data using multi-task deep learning [19.889861433855053]
高次元オミクスデータは、パーソナライズド医療に不可欠な本質的なバイオメディカル情報を含む。
多数の分子的特徴と少量のサンプルのために、ゲノム全体のデータからそれらを捉えることは困難である。
我々は,高次元オミクスデータから表現型の全体的かつ比較的正確なプロファイルを捉えるために,OmiEmbedという統合マルチタスク深層学習フレームワークを提案した。
論文 参考訳(メタデータ) (2021-02-03T07:34:29Z) - MELINDA: A Multimodal Dataset for Biomedical Experiment Method
Classification [14.820951153262685]
マルチモーダルbiomEdicaL experImeNtmethoD clAssificationのための新しいデータセット、MELINDAを紹介します。
データセットは、完全に自動化された遠隔監視方法で収集され、ラベルは既存のキュレーションデータベースから取得されます。
キャプションテキストまたは画像のみを入力として取得するユニモダルモデルを含む、さまざまな最先端のNLPおよびコンピュータビジョンモデルをベンチマークします。
論文 参考訳(メタデータ) (2020-12-16T19:11:36Z) - Polymer Informatics with Multi-Task Learning [0.06524460254566902]
固有相関を効果的に活用するマルチタスク学習手法の有用性を示す。
13,000ドルを超えるポリマーの36種類の異なる性質に関するデータは、統合され、ディープラーニングマルチタスクアーキテクチャに供給される。
マルチタスクのアプローチは正確で、効率的で、スケーラブルで、同じまたは異なるプロパティ上のより多くのデータが利用可能になると、学習を転送できる。
論文 参考訳(メタデータ) (2020-10-28T18:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。