論文の概要: Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation
- arxiv url: http://arxiv.org/abs/2404.16880v3
- Date: Mon, 03 Mar 2025 16:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:05:04.474509
- Title: Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation
- Title(参考訳): Atomas: 分子の統一理解と生成のための分子テキストの階層的アライメント
- Authors: Yikun Zhang, Geyan Ye, Chaohao Yuan, Bo Han, Long-Kai Huang, Jianhua Yao, Wei Liu, Yu Rong,
- Abstract要約: クロスモーダル表現学習は、分子表現の質を高めるための有望な方向として登場した。
SMILES文字列とテキストから表現を共同で学習する階層的分子表現学習フレームワークAtomasを提案する。
Atomasは11のデータセット上の12のタスクで優れたパフォーマンスを実現し、11のベースラインモデルを上回っている。
- 参考スコア(独自算出の注目度): 42.08917809689811
- License:
- Abstract: Molecule-and-text cross-modal representation learning has emerged as a promising direction for enhancing the quality of molecular representation, thereby improving performance in various scientific fields. However, most approaches employ a global alignment approach to learn the knowledge from different modalities that may fail to capture fine-grained information, such as molecule-and-text fragments and stereoisomeric nuances, which is crucial for downstream tasks. Furthermore, it is incapable of modeling such information using a similar global alignment strategy due to the lack of annotations about the fine-grained fragments in the existing dataset. In this paper, we propose Atomas, a hierarchical molecular representation learning framework that jointly learns representations from SMILES strings and text. We design a Hierarchical Adaptive Alignment model to automatically learn the fine-grained fragment correspondence between two modalities and align these representations at three semantic levels. Atomas's end-to-end training framework supports understanding and generating molecules, enabling a wider range of downstream tasks. Atomas achieves superior performance across 12 tasks on 11 datasets, outperforming 11 baseline models thus highlighting the effectiveness and versatility of our method. Scaling experiments further demonstrate Atomas's robustness and scalability. Moreover, visualization and qualitative analysis, validated by human experts, confirm the chemical relevance of our approach. Codes are released on https://github.com/yikunpku/Atomas.
- Abstract(参考訳): 分子とテキストのクロスモーダル表現学習は、分子表現の質を高めるための有望な方向として現れ、様々な科学分野のパフォーマンス向上に寄与している。
しかし、ほとんどのアプローチでは、分子とテキストの断片や立体異性体ニュアンスといった微細な情報を捉えるのに失敗する様々なモーダル性から知識を学ぶために、グローバルアライメントアプローチを採用している。
さらに、既存のデータセットのきめ細かいフラグメントに関するアノテーションが欠如しているため、同様のグローバルアライメント戦略を使用して、そのような情報をモデリングすることができない。
本稿では,SMILES文字列とテキストから表現を共同で学習する階層型分子表現学習フレームワークAtomasを提案する。
階層型適応アライメントモデルを設計し、2つのモーダル間の微細な断片対応を自動的に学習し、これらの表現を3つの意味レベルで整列させる。
Atomasのエンドツーエンドトレーニングフレームワークは、分子の理解と生成をサポートし、より幅広い下流タスクを可能にする。
Atomasは11のデータセット上の12のタスクにまたがって優れたパフォーマンスを実現し、11のベースラインモデルよりも優れたパフォーマンスを実現しています。
スケールアップ実験はさらに、Atomasの堅牢性とスケーラビリティを実証している。
さらに、人間の専門家が検証した可視化と質的分析により、我々のアプローチの化学的妥当性を確認した。
コードはhttps://github.com/yikunpku/Atomas.comで公開されている。
関連論文リスト
- Graph-based Molecular In-context Learning Grounded on Morgan Fingerprints [28.262593876388397]
In-context Learning (ICL) では、プロパティ予測や分子キャプションなどの分子タスクのための大規模言語モデル(LLM)を、慎重に選択された実演例を入力プロンプトに埋め込む。
しかし、現在の分子タスクのプロンプト検索法は、モーガン指紋のような分子の特徴的類似性に依存しており、これはグローバル分子と原子結合の関係を適切に捉えていない。
本稿では,グローバル分子構造をグラフニューラルネットワーク(GNN)とテキストキャプション(記述)に整合させ,モーガン指紋による局所的特徴類似性を活用する自己教師付き学習手法GAMICを提案する。
論文 参考訳(メタデータ) (2025-02-08T02:46:33Z) - GeomCLIP: Contrastive Geometry-Text Pre-training for Molecules [16.98169256565552]
我々は,200万対の基底状態の幾何学的構造とバイオメディカルテキストのためのデータ収集作業を構築した。
分子構造とバイオメディカルテキストからのマルチモーダル表現学習のためのGeomCLIPフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-16T15:15:24Z) - Exploring Optimal Transport-Based Multi-Grained Alignments for Text-Molecule Retrieval [24.061535843472427]
最適TRansportに基づく多粒度アライメントモデル(ORMA)を導入する。
ORMAは、テキスト記述と分子間の多義的なアライメントを促進する新しいアプローチである。
ChEBI-20データセットとPCdesデータセットの実験結果から、ORMAが既存のSOTA(State-of-the-art)モデルを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-11-04T06:30:52Z) - UniIF: Unified Molecule Inverse Folding [67.60267592514381]
全分子の逆折り畳みのための統一モデルUniIFを提案する。
提案手法は,全タスクにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-05-29T10:26:16Z) - Unified Molecular Modeling via Modality Blending [35.16755562674055]
我々は,新しい「Blund-then-predict」自己教師型学習法(MoleBLEND)を導入する。
MoleBLENDは、異なるモジュラリティからの原子関係をマトリックス符号化のための1つの統一された関係にブレンドし、2D構造と3D構造の両方のモダリティ固有情報を復元する。
実験によると、MoleBLENDは主要な2D/3Dベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-12T15:27:06Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations [68.32093648671496]
分子に固有の二重レベル構造を考慮に入れたGODEを導入する。
分子は固有のグラフ構造を持ち、より広い分子知識グラフ内のノードとして機能する。
異なるグラフ構造上の2つのGNNを事前学習することにより、GODEは対応する知識グラフサブ構造と分子構造を効果的に融合させる。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - Generation of 3D Molecules in Pockets via Language Model [0.0]
逐次線記法(SMILES)やグラフ表現に基づく分子の生成モデルは、構造に基づく薬物設計の分野への関心が高まっている。
本稿では,言語モデルと幾何学的深層学習技術を組み合わせたポケットベースの3次元分子生成手法であるLingo3DMolを紹介する。
論文 参考訳(メタデータ) (2023-05-17T11:31:06Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。