論文の概要: MolTextNet: A Two-Million Molecule-Text Dataset for Multimodal Molecular Learning
- arxiv url: http://arxiv.org/abs/2506.00009v1
- Date: Thu, 15 May 2025 19:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.606031
- Title: MolTextNet: A Two-Million Molecule-Text Dataset for Multimodal Molecular Learning
- Title(参考訳): MolTextNet:マルチモーダル分子学習のための2ミリ分子テキストデータセット
- Authors: Yihan Zhu, Gang Liu, Eric Inae, Meng Jiang,
- Abstract要約: MolTextNetは、250万の高品質な分子テキストペアのデータセットである。
我々は、ChEMBL35から250万分子の構造的記述を作成し、テキストは以前のデータセットの10倍以上の長さである。
- 参考スコア(独自算出の注目度): 15.083985098119202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small molecules are essential to drug discovery, and graph-language models hold promise for learning molecular properties and functions from text. However, existing molecule-text datasets are limited in scale and informativeness, restricting the training of generalizable multimodal models. We present MolTextNet, a dataset of 2.5 million high-quality molecule-text pairs designed to overcome these limitations. To construct it, we propose a synthetic text generation pipeline that integrates structural features, computed properties, bioactivity data, and synthetic complexity. Using GPT-4o-mini, we create structured descriptions for 2.5 million molecules from ChEMBL35, with text over 10 times longer than prior datasets. MolTextNet supports diverse downstream tasks, including property prediction and structure retrieval. Pretraining CLIP-style models with Graph Neural Networks and ModernBERT on MolTextNet yields improved performance, highlighting its potential for advancing foundational multimodal modeling in molecular science. Our dataset is available at https://huggingface.co/datasets/liuganghuggingface/moltextnet.
- Abstract(参考訳): 小さな分子は薬物発見に必須であり、グラフ言語モデルはテキストから分子の性質と機能を学ぶことを約束する。
しかし、既存の分子テクストデータセットはスケールと情報性に制限されており、一般化可能なマルチモーダルモデルのトレーニングを制限している。
これらの制限を克服するために設計された、250万の高品質な分子テキストペアのデータセットであるMolTextNetを提示する。
そこで本研究では, 構造的特徴, 計算特性, 生物活動データ, 合成複雑性を統合した合成テキスト生成パイプラインを提案する。
GPT-4o-miniを用いて、ChEMBL35から250万分子の構造的記述を作成し、テキストは以前のデータセットの10倍長くなった。
MolTextNetは、プロパティ予測や構造検索など、さまざまな下流タスクをサポートする。
グラフニューラルネットワークとModernBERTによるCLIPスタイルのモデルをMolTextNetでトレーニングすることで、性能が向上し、分子科学における基礎的マルチモーダルモデリングの進歩の可能性を強調している。
私たちのデータセットはhttps://huggingface.co/datasets/liuganghuggingface/moltextnet.comで公開されています。
関連論文リスト
- Property Enhanced Instruction Tuning for Multi-task Molecule Generation with Large Language Models [43.37148291436855]
分子関連タスクのための大規模言語モデルを改善するための2段階のフレームワークPEITを提案する。
最初のステップでは、PEIT-GENと呼ばれるモデルを事前訓練するために、テキスト記述、SMILES、生化学的特性をマルチモーダル入力として使用します。
2番目のステップでは、既存のオープンソースLCMを合成データで微調整し、PEIT-LLMは分子キャプション、テキストベースの分子生成、分子特性予測、新たに提案したマルチ制約分子生成タスクを処理できる。
論文 参考訳(メタデータ) (2024-12-24T01:48:07Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - L+M-24: Building a Dataset for Language + Molecules @ ACL 2024 [46.478275217556586]
ACL 2024で共有されたLanguage + Molecules Workshopのために作成された$textitL+M-24$データセットについて詳述する。
特に、$textitL+M-24$は、分子設計における自然言語の3つの重要な利点(合成性、機能、抽象)に焦点を当てるように設計されている。
論文 参考訳(メタデータ) (2024-02-22T20:11:24Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。