論文の概要: M$^{3}$-20M: A Large-Scale Multi-Modal Molecule Dataset for AI-driven Drug Design and Discovery
- arxiv url: http://arxiv.org/abs/2412.06847v1
- Date: Sun, 08 Dec 2024 03:43:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:07.281090
- Title: M$^{3}$-20M: A Large-Scale Multi-Modal Molecule Dataset for AI-driven Drug Design and Discovery
- Title(参考訳): M$^{3}$-20M:AIによる薬物設計と発見のための大規模マルチモーダル分子データセット
- Authors: Siyuan Guo, Lexuan Wang, Chang Jin, Jinxian Wang, Han Peng, Huayang Shi, Wengen Li, Jihong Guan, Shuigeng Zhou,
- Abstract要約: 本稿では2000万以上の分子を含む大規模マルチモーダル分子データセットであるM$3$-20Mを紹介する。
AI駆動のドラッグデザインと発見をサポートするように設計されている。
- 参考スコア(独自算出の注目度): 23.60901496004578
- License:
- Abstract: This paper introduces M$^{3}$-20M, a large-scale Multi-Modal Molecular dataset that contains over 20 million molecules. Designed to support AI-driven drug design and discovery, M$^{3}$-20M is 71 times more in the number of molecules than the largest existing dataset, providing an unprecedented scale that can highly benefit training or fine-tuning large (language) models with superior performance for drug design and discovery. This dataset integrates one-dimensional SMILES, two-dimensional molecular graphs, three-dimensional molecular structures, physicochemical properties, and textual descriptions collected through web crawling and generated by using GPT-3.5, offering a comprehensive view of each molecule. To demonstrate the power of M$^{3}$-20M in drug design and discovery, we conduct extensive experiments on two key tasks: molecule generation and molecular property prediction, using large language models including GLM4, GPT-3.5, and GPT-4. Our experimental results show that M$^{3}$-20M can significantly boost model performance in both tasks. Specifically, it enables the models to generate more diverse and valid molecular structures and achieve higher property prediction accuracy than the existing single-modal datasets, which validates the value and potential of M$^{3}$-20M in supporting AI-driven drug design and discovery. The dataset is available at \url{https://github.com/bz99bz/M-3}.
- Abstract(参考訳): 本稿では2000万以上の分子を含む大規模マルチモーダル分子データセットであるM$^{3}$-20Mを紹介する。
AI駆動のドラッグデザインと発見をサポートするために設計されたM$^{3}$-20Mは、既存の最大のデータセットの71倍の分子数であり、薬物設計と発見に優れたパフォーマンスを持つ大規模な(言語)モデルのトレーニングや微調整の恩恵を享受できる前例のない規模を提供する。
このデータセットは、一次元SMILES、二次元分子グラフ、三次元分子構造、物理化学的性質、およびウェブクローリングを通して収集され、GPT-3.5を用いて生成されたテキスト記述を統合し、各分子の包括的なビューを提供する。
GLM4, GPT-3.5, GPT-4などの大規模言語モデルを用いて, M$^{3}$-20Mの薬物設計および発見における効果を実証するため, 分子生成と分子特性予測という2つの重要な課題について広範な実験を行った。
実験の結果,M$^{3}$-20Mは両タスクのモデル性能を大幅に向上させることができることがわかった。
具体的には、AI駆動の薬物設計と発見を支援するM$^{3}$-20Mの価値とポテンシャルを検証するため、モデルがより多様で有効な分子構造を生成でき、既存の単一モーダルデータセットよりも高い特性予測精度を達成することができる。
データセットは \url{https://github.com/bz99bz/M-3} で公開されている。
関連論文リスト
- Data-Driven Parametrization of Molecular Mechanics Force Fields for Expansive Chemical Space Coverage [16.745564099126575]
我々は、薬物様分子のアンバー互換力場であるByteFFを開発した。
本モデルでは, 薬物様分子のすべての結合および非結合MM力場パラメータを, 広い化学空間にわたって同時に予測する。
論文 参考訳(メタデータ) (2024-08-23T03:37:06Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Learning Over Molecular Conformer Ensembles: Datasets and Benchmarks [44.934084652800976]
コンフォーマーアンサンブルを用いた学習の可能性を徹底的に評価するための,最初のMoleculAR Conformer Ensemble Learningベンチマークを導入する。
その結果,コンバータ空間からの直接学習は,様々なタスクやモデルの性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-09-29T20:06:46Z) - An Equivariant Generative Framework for Molecular Graph-Structure
Co-Design [54.92529253182004]
分子グラフ構造アンダーラインCo設計のための機械学習ベースの生成フレームワークであるMollCodeを提案する。
MolCodeでは、3D幾何情報によって分子2Dグラフの生成が促進され、それによって分子3D構造の予測が導かれる。
分子設計における2次元トポロジーと3次元幾何は本質的に相補的な情報を含んでいることが明らかとなった。
論文 参考訳(メタデータ) (2023-04-12T13:34:22Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Augmenting Molecular Deep Generative Models with Topological Data
Analysis Representations [21.237758981760784]
分子のトポロジカルデータ解析(TDA)表現を付加したSMILES変分自動エンコーダ(VAE)を提案する。
実験の結果, このTDA拡張により, SMILES VAEは3次元幾何学と電子特性の複雑な関係を捉えることができることがわかった。
論文 参考訳(メタデータ) (2021-06-08T15:49:21Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z) - GEOM: Energy-annotated molecular conformations for property prediction
and molecular generation [0.0]
我々は、高度サンプリングと半経験的密度汎関数理論を用いて、45万以上の分子に対して3700万の分子配座を生成する。
データセットには、QM9の133,000種と、生物物理学、生理学、物理化学に関する実験データを含む317,000種が含まれている。
論文 参考訳(メタデータ) (2020-06-09T22:14:33Z) - Targeting SARS-CoV-2 with AI- and HPC-enabled Lead Generation: A First
Data Release [8.090016327163564]
このデータリリースは、4.2B分子と60TBの事前計算データの構造情報を含んでいる。
有望なアプローチのひとつは、機械学習(ML)と人工知能(AI)ツールをトレーニングして、多数の小さな分子をスクリーニングすることだ。
今後のリリースでは、より詳細な分子シミュレーションや計算モデル、その他の製品を含むように、データを拡大する予定である。
論文 参考訳(メタデータ) (2020-05-28T01:33:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。