論文の概要: 3D-MolT5: Towards Unified 3D Molecule-Text Modeling with 3D Molecular Tokenization
- arxiv url: http://arxiv.org/abs/2406.05797v1
- Date: Sun, 9 Jun 2024 14:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 17:57:33.334912
- Title: 3D-MolT5: Towards Unified 3D Molecule-Text Modeling with 3D Molecular Tokenization
- Title(参考訳): 3D-MolT5:3次元分子トークン化を用いた統一3次元分子テキストモデリングを目指して
- Authors: Qizhi Pei, Lijun Wu, Kaiyuan Gao, Jinhua Zhu, Rui Yan,
- Abstract要約: 3D-MolT5は1次元分子配列と3次元分子構造の両方をモデル化する統合されたフレームワークである。
鍵となる革新は、細粒度の3次元部分構造表現を特別な3次元トークン語彙にマッピングする方法論にある。
提案した3D-MolT5は,分子特性予測,分子キャプション,テキストベースの分子生成タスクにおいて,既存の手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 41.07090635630771
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of molecule and language has garnered increasing attention in molecular science. Recent advancements in Language Models (LMs) have demonstrated potential for the comprehensive modeling of molecule and language. However, existing works exhibit notable limitations. Most existing works overlook the modeling of 3D information, which is crucial for understanding molecular structures and also functions. While some attempts have been made to leverage external structure encoding modules to inject the 3D molecular information into LMs, there exist obvious difficulties that hinder the integration of molecular structure and language text, such as modality alignment and separate tuning. To bridge this gap, we propose 3D-MolT5, a unified framework designed to model both 1D molecular sequence and 3D molecular structure. The key innovation lies in our methodology for mapping fine-grained 3D substructure representations (based on 3D molecular fingerprints) to a specialized 3D token vocabulary for 3D-MolT5. This 3D structure token vocabulary enables the seamless combination of 1D sequence and 3D structure representations in a tokenized format, allowing 3D-MolT5 to encode molecular sequence (SELFIES), molecular structure, and text sequences within a unified architecture. Alongside, we further introduce 1D and 3D joint pre-training to enhance the model's comprehension of these diverse modalities in a joint representation space and better generalize to various tasks for our foundation model. Through instruction tuning on multiple downstream datasets, our proposed 3D-MolT5 shows superior performance than existing methods in molecular property prediction, molecule captioning, and text-based molecule generation tasks. Our code will be available on GitHub soon.
- Abstract(参考訳): 分子と言語の統合は分子科学の注目を集めている。
言語モデル(LM)の最近の進歩は、分子と言語の包括的なモデリングの可能性を示している。
しかし、現存する作品には顕著な限界がある。
既存の研究の多くは、分子構造や機能を理解するのに不可欠である3D情報のモデリングを見落としている。
3次元分子情報をLMに注入するためにモジュールをコードする外部構造を利用する試みがあるが、分子構造と言語文の統合を妨げる明らかな困難がある。
このギャップを埋めるために,1次元分子配列と3次元分子構造の両方をモデル化する統合フレームワークである3D-MolT5を提案する。
重要な革新は、3D-MolT5の特別な3Dトークン語彙に微細な3Dサブ構造表現(3D分子指紋に基づく)をマッピングする手法である。
この3D構造トークン語彙は、トークン化された形式で1D配列と3D構造表現をシームレスに組み合わせることを可能にし、3D-MolT5は、統一されたアーキテクチャ内で分子配列(SELFIES)、分子構造、およびテキストシーケンスをエンコードすることができる。
さらに1次元と3次元の関節前訓練を導入し、これらの多彩なモーダルの理解を深め、基礎モデルの様々なタスクにより良い一般化を図る。
提案する3D-MolT5は,複数の下流データセットのインストラクションチューニングにより,分子特性予測や分子キャプション,テキストベースの分子生成タスクにおいて,既存の手法よりも優れた性能を示す。
私たちのコードは近いうちにGitHubで利用可能になります。
関連論文リスト
- 3M-Diffusion: Latent Multi-Modal Diffusion for Language-Guided Molecular Structure Generation [18.55127917150268]
3M拡散は、新しいマルチモーダルな分子グラフ生成法である。
望ましい性質を持つ多様な、理想的には新しい分子構造を生成する。
論文 参考訳(メタデータ) (2024-03-11T21:44:54Z) - Towards 3D Molecule-Text Interpretation in Language Models [125.56693661827181]
3D-MoLMは、LMに3D分子エンコーダを装着することで、3D分子の解釈と解析を可能にする。
この積分は、3D分子テキストプロジェクターによって達成され、3D分子エンコーダの表現空間とLMの入力空間をブリッジする。
我々は、3D分子中心の命令チューニングデータセット -- 3D-MoITを慎重にキュレートした。
論文 参考訳(メタデータ) (2024-01-25T03:42:00Z) - 3D-Mol: A Novel Contrastive Learning Framework for Molecular Property Prediction with 3D Information [1.1777304970289215]
3D-Molはより正確な空間構造表現のために設計された新しいアプローチである。
分子を3つの階層グラフに分解し、幾何学的情報をよりよく抽出する。
3D-Molと最先端のベースラインを7つのベンチマークで比較し,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-28T10:05:37Z) - Automated 3D Pre-Training for Molecular Property Prediction [54.15788181794094]
新たな3D事前学習フレームワーク(3D PGT)を提案する。
3D分子グラフのモデルを事前訓練し、3D構造のない分子グラフに微調整する。
提案した3次元PGTの精度, 効率, 一般化能力を示すために, 2次元分子グラフの大規模実験を行った。
論文 参考訳(メタデータ) (2023-06-13T14:43:13Z) - Generation of 3D Molecules in Pockets via Language Model [0.0]
逐次線記法(SMILES)やグラフ表現に基づく分子の生成モデルは、構造に基づく薬物設計の分野への関心が高まっている。
本稿では,言語モデルと幾何学的深層学習技術を組み合わせたポケットベースの3次元分子生成手法であるLingo3DMolを紹介する。
論文 参考訳(メタデータ) (2023-05-17T11:31:06Z) - Language models can generate molecules, materials, and protein binding
sites directly in three dimensions as XYZ, CIF, and PDB files [0.0]
言語モデルは分子設計の強力なツールである。
言語モデルが3次元の新規かつ有効な構造を生成する方法を示す。
化学ファイルシーケンスで訓練されているにもかかわらず、言語モデルは最先端のモデルに匹敵するパフォーマンスを保っている。
論文 参考訳(メタデータ) (2023-05-09T18:35:38Z) - MUDiff: Unified Diffusion for Complete Molecule Generation [104.7021929437504]
本稿では,原子の特徴,2次元離散分子構造,および3次元連続分子座標を含む分子の包括的表現を生成する新しいモデルを提案する。
拡散過程を認知するための新しいグラフトランスフォーマーアーキテクチャを提案する。
我々のモデルは、安定で多様な分子を設計するための有望なアプローチであり、分子モデリングの幅広いタスクに適用できる。
論文 参考訳(メタデータ) (2023-04-28T04:25:57Z) - An Equivariant Generative Framework for Molecular Graph-Structure
Co-Design [54.92529253182004]
分子グラフ構造アンダーラインCo設計のための機械学習ベースの生成フレームワークであるMollCodeを提案する。
MolCodeでは、3D幾何情報によって分子2Dグラフの生成が促進され、それによって分子3D構造の予測が導かれる。
分子設計における2次元トポロジーと3次元幾何は本質的に相補的な情報を含んでいることが明らかとなった。
論文 参考訳(メタデータ) (2023-04-12T13:34:22Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。