論文の概要: TRIDENT: Tri-Modal Molecular Representation Learning with Taxonomic Annotations and Local Correspondence
- arxiv url: http://arxiv.org/abs/2506.21028v1
- Date: Thu, 26 Jun 2025 06:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.993123
- Title: TRIDENT: Tri-Modal Molecular Representation Learning with Taxonomic Annotations and Local Correspondence
- Title(参考訳): TRIDENT: トリオモーダルな分子表現学習
- Authors: Feng Jiang, Mangal Prakash, Hehuan Ma, Jianyuan Deng, Yuzhi Guo, Amina Mollaysa, Tommaso Mansi, Rui Liao, Junzhou Huang,
- Abstract要約: TRIDENTは、分子SMILES、テキスト記述、分類機能アノテーションを統合し、リッチな分子表現を学習する新しいフレームワークである。
TRIDENTは11の下流タスクで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 33.9788667629578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular property prediction aims to learn representations that map chemical structures to functional properties. While multimodal learning has emerged as a powerful paradigm to learn molecular representations, prior works have largely overlooked textual and taxonomic information of molecules for representation learning. We introduce TRIDENT, a novel framework that integrates molecular SMILES, textual descriptions, and taxonomic functional annotations to learn rich molecular representations. To achieve this, we curate a comprehensive dataset of molecule-text pairs with structured, multi-level functional annotations. Instead of relying on conventional contrastive loss, TRIDENT employs a volume-based alignment objective to jointly align tri-modal features at the global level, enabling soft, geometry-aware alignment across modalities. Additionally, TRIDENT introduces a novel local alignment objective that captures detailed relationships between molecular substructures and their corresponding sub-textual descriptions. A momentum-based mechanism dynamically balances global and local alignment, enabling the model to learn both broad functional semantics and fine-grained structure-function mappings. TRIDENT achieves state-of-the-art performance on 11 downstream tasks, demonstrating the value of combining SMILES, textual, and taxonomic functional annotations for molecular property prediction.
- Abstract(参考訳): 分子特性予測は、化学構造を機能特性にマッピングする表現を学習することを目的としている。
マルチモーダル学習は、分子表現を学ぶための強力なパラダイムとして現れてきたが、以前の研究は、表現学習のための分子のテキスト情報や分類情報をほとんど見落としてきた。
本稿では、分子SMILES、テキスト記述、分類機能アノテーションを統合した、リッチな分子表現を学習するための新しいフレームワークTRIDENTを紹介する。
これを実現するために,構造化多レベル関数アノテーションを用いた分子文ペアの包括的データセットをキュレートする。
TRIDENTは、従来のコントラスト損失に頼るのではなく、ボリュームベースのアライメントの目標を用いて、グローバルレベルでトリモーダル特徴を協調的にアライメントし、モダリティをまたいだソフトな幾何学的アライメントを可能にする。
さらに、TRIDENTは、分子サブ構造とそれに対応するサブテクスチャ記述との詳細な関係をキャプチャする、新しい局所アライメントの目的を導入した。
運動量に基づくメカニズムは、グローバルなアライメントと局所的なアライメントを動的にバランスさせ、より広い機能的セマンティクスときめ細かい構造関数マッピングの両方を学ぶことができる。
TRIDENTは11の下流タスクで最先端のパフォーマンスを達成し、SMILES、テキスト、および分子特性予測のための分類学的機能アノテーションを組み合わせる価値を実証した。
関連論文リスト
- Knowledge-aware contrastive heterogeneous molecular graph learning [77.94721384862699]
分子グラフを不均一な分子グラフ学習(KCHML)に符号化するパラダイムシフトを提案する。
KCHMLは、不均一な分子グラフと二重メッセージパッシング機構によって強化された3つの異なるグラフビュー-分子、元素、薬理学-を通して分子を概念化する。
この設計は、プロパティ予測やドラッグ・ドラッグ・インタラクション(DDI)予測などの下流タスクに対する包括的な表現を提供する。
論文 参考訳(メタデータ) (2025-02-17T11:53:58Z) - Exploring Optimal Transport-Based Multi-Grained Alignments for Text-Molecule Retrieval [24.061535843472427]
最適TRansportに基づく多粒度アライメントモデル(ORMA)を導入する。
ORMAは、テキスト記述と分子間の多義的なアライメントを促進する新しいアプローチである。
ChEBI-20データセットとPCdesデータセットの実験結果から、ORMAが既存のSOTA(State-of-the-art)モデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-11-04T06:30:52Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation [42.08917809689811]
クロスモーダル表現学習は、分子表現の質を高めるための有望な方向として登場した。
SMILES文字列とテキストから表現を共同で学習する階層的分子表現学習フレームワークAtomasを提案する。
Atomasは11のデータセット上の12のタスクで優れたパフォーマンスを実現し、11のベースラインモデルを上回っている。
論文 参考訳(メタデータ) (2024-04-23T12:35:44Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation [10.025809630976065]
本稿では,より堅牢で一般化可能な化学知識を学習する,新しい事前学習フレームワークを提案する。
提案手法は,種々の分子特性ベンチマークにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-11-05T23:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。