論文の概要: 3D-MolT5: Leveraging Discrete Structural Information for Molecule-Text Modeling
- arxiv url: http://arxiv.org/abs/2406.05797v2
- Date: Tue, 18 Mar 2025 08:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:13:34.078405
- Title: 3D-MolT5: Leveraging Discrete Structural Information for Molecule-Text Modeling
- Title(参考訳): 3D-MolT5:分子テクスチャモデリングのための離散構造情報を活用する
- Authors: Qizhi Pei, Rui Yan, Kaiyuan Gao, Jinhua Zhu, Lijun Wu,
- Abstract要約: 分子を配列空間と3次元構造空間の両方でモデル化する統合フレームワークである textbf3D-MolT5 を提案する。
このアプローチの鍵となる革新は、きめ細かい3Dサブ構造表現を特別な3Dトークン語彙にマッピングすることである。
当社のアプローチは、これまでの作業における重要な課題に対処しながら、モーダル間相互作用とアライメントを大幅に改善します。
- 参考スコア(独自算出の注目度): 41.07090635630771
- License:
- Abstract: The integration of molecular and natural language representations has emerged as a focal point in molecular science, with recent advancements in Language Models (LMs) demonstrating significant potential for comprehensive modeling of both domains. However, existing approaches face notable limitations, particularly in their neglect of three-dimensional (3D) information, which is crucial for understanding molecular structures and functions. While some efforts have been made to incorporate 3D molecular information into LMs using external structure encoding modules, significant difficulties remain, such as insufficient interaction across modalities in pre-training and challenges in modality alignment. To address the limitations, we propose \textbf{3D-MolT5}, a unified framework designed to model molecule in both sequence and 3D structure spaces. The key innovation of our approach lies in mapping fine-grained 3D substructure representations into a specialized 3D token vocabulary. This methodology facilitates the seamless integration of sequence and structure representations in a tokenized format, enabling 3D-MolT5 to encode molecular sequences, molecular structures, and text sequences within a unified architecture. Leveraging this tokenized input strategy, we build a foundation model that unifies the sequence and structure data formats. We then conduct joint pre-training with multi-task objectives to enhance the model's comprehension of these diverse modalities within a shared representation space. Thus, our approach significantly improves cross-modal interaction and alignment, addressing key challenges in previous work. Further instruction tuning demonstrated that our 3D-MolT5 has strong generalization ability and surpasses existing methods with superior performance in multiple downstream tasks. Our code is available at https://github.com/QizhiPei/3D-MolT5.
- Abstract(参考訳): 分子と自然言語の表現の統合は、分子科学の焦点として現れており、近年の言語モデル(LM)の進歩は、両方のドメインを包括的にモデル化する大きな可能性を示している。
しかし、既存のアプローチは、特に分子構造や機能を理解する上で重要な3次元情報を無視した際、顕著な制限に直面している。
外部構造をコードするモジュールを用いて3D分子情報をLMに組み込む試みがいくつか行われているが、事前学習におけるモダリティ間の相互作用が不十分なことや、モダリティアライメントの課題など、重大な困難が残っている。
この制限に対処するために,分子を配列空間と3次元構造空間の両方でモデル化する統合フレームワークである「textbf{3D-MolT5}」を提案する。
このアプローチの鍵となる革新は、きめ細かい3Dサブ構造表現を特別な3Dトークン語彙にマッピングすることである。
この手法は、3D-MolT5で分子配列、分子構造、およびテキスト配列を統一されたアーキテクチャ内でエンコードできるように、トークン化されたフォーマットでのシーケンスと構造表現のシームレスな統合を促進する。
このトークン化された入力戦略を活用することで、シーケンスと構造データフォーマットを統一する基盤モデルを構築します。
次に、多タスク目的との協調事前学習を行い、共有表現空間内のこれらの多様性に対するモデルの理解を深める。
このように、我々のアプローチは、モーダル間相互作用とアライメントを大幅に改善し、以前の作業における重要な課題に対処します。
さらに,我々の3D-MolT5は強力な一般化能力を有し,複数のダウンストリームタスクにおいて優れた性能を持つ既存手法よりも優れていることを示す。
私たちのコードはhttps://github.com/QizhiPei/3D-MolT5.comで利用可能です。
関連論文リスト
- NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation [72.22099363325145]
NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generationを提案する。
NExT-Molは1D分子生成のために広範囲に事前訓練された分子LMを使用し、その後、生成された分子の3Dコンホメータを予測する。
我々は,NExT-Molの性能を向上させるために,LMのモデルサイズをスケールアップし,拡散ニューラルアーキテクチャを改良し,三次元トランスファー学習に1Dを適用した。
論文 参考訳(メタデータ) (2025-02-18T08:40:13Z) - 3M-Diffusion: Latent Multi-Modal Diffusion for Language-Guided Molecular Structure Generation [18.55127917150268]
3M拡散は、新しいマルチモーダルな分子グラフ生成法である。
望ましい性質を持つ多様な、理想的には新しい分子構造を生成する。
論文 参考訳(メタデータ) (2024-03-11T21:44:54Z) - Towards 3D Molecule-Text Interpretation in Language Models [125.56693661827181]
3D-MoLMは、LMに3D分子エンコーダを装着することで、3D分子の解釈と解析を可能にする。
この積分は、3D分子テキストプロジェクターによって達成され、3D分子エンコーダの表現空間とLMの入力空間をブリッジする。
我々は、3D分子中心の命令チューニングデータセット -- 3D-MoITを慎重にキュレートした。
論文 参考訳(メタデータ) (2024-01-25T03:42:00Z) - 3D-Mol: A Novel Contrastive Learning Framework for Molecular Property Prediction with 3D Information [1.1777304970289215]
3D-Molはより正確な空間構造表現のために設計された新しいアプローチである。
分子を3つの階層グラフに分解し、幾何学的情報をよりよく抽出する。
3D-Molと最先端のベースラインを7つのベンチマークで比較し,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-28T10:05:37Z) - Automated 3D Pre-Training for Molecular Property Prediction [54.15788181794094]
新たな3D事前学習フレームワーク(3D PGT)を提案する。
3D分子グラフのモデルを事前訓練し、3D構造のない分子グラフに微調整する。
提案した3次元PGTの精度, 効率, 一般化能力を示すために, 2次元分子グラフの大規模実験を行った。
論文 参考訳(メタデータ) (2023-06-13T14:43:13Z) - Generation of 3D Molecules in Pockets via Language Model [0.0]
逐次線記法(SMILES)やグラフ表現に基づく分子の生成モデルは、構造に基づく薬物設計の分野への関心が高まっている。
本稿では,言語モデルと幾何学的深層学習技術を組み合わせたポケットベースの3次元分子生成手法であるLingo3DMolを紹介する。
論文 参考訳(メタデータ) (2023-05-17T11:31:06Z) - Language models can generate molecules, materials, and protein binding
sites directly in three dimensions as XYZ, CIF, and PDB files [0.0]
言語モデルは分子設計の強力なツールである。
言語モデルが3次元の新規かつ有効な構造を生成する方法を示す。
化学ファイルシーケンスで訓練されているにもかかわらず、言語モデルは最先端のモデルに匹敵するパフォーマンスを保っている。
論文 参考訳(メタデータ) (2023-05-09T18:35:38Z) - MUDiff: Unified Diffusion for Complete Molecule Generation [104.7021929437504]
本稿では,原子の特徴,2次元離散分子構造,および3次元連続分子座標を含む分子の包括的表現を生成する新しいモデルを提案する。
拡散過程を認知するための新しいグラフトランスフォーマーアーキテクチャを提案する。
我々のモデルは、安定で多様な分子を設計するための有望なアプローチであり、分子モデリングの幅広いタスクに適用できる。
論文 参考訳(メタデータ) (2023-04-28T04:25:57Z) - Scalable Fragment-Based 3D Molecular Design with Reinforcement Learning [68.8204255655161]
分子構築に階層的エージェントを用いるスケーラブルな3D設計のための新しいフレームワークを提案する。
様々な実験において、エネルギーのみを考慮に入れたエージェントが、100以上の原子を持つ分子を効率よく生成できることが示されている。
論文 参考訳(メタデータ) (2022-02-01T18:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。