論文の概要: GeomCLIP: Contrastive Geometry-Text Pre-training for Molecules
- arxiv url: http://arxiv.org/abs/2411.10821v1
- Date: Sat, 16 Nov 2024 15:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:26:34.683460
- Title: GeomCLIP: Contrastive Geometry-Text Pre-training for Molecules
- Title(参考訳): GeomCLIP: 分子のコントラスト幾何学-テキスト事前学習
- Authors: Teng Xiao, Chao Cui, Huaisheng Zhu, Vasant G. Honavar,
- Abstract要約: 我々は,200万対の基底状態の幾何学的構造とバイオメディカルテキストのためのデータ収集作業を構築した。
分子構造とバイオメディカルテキストからのマルチモーダル表現学習のためのGeomCLIPフレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.98169256565552
- License:
- Abstract: Pretraining molecular representations is crucial for drug and material discovery. Recent methods focus on learning representations from geometric structures, effectively capturing 3D position information. Yet, they overlook the rich information in biomedical texts, which detail molecules' properties and substructures. With this in mind, we set up a data collection effort for 200K pairs of ground-state geometric structures and biomedical texts, resulting in a PubChem3D dataset. Based on this dataset, we propose the GeomCLIP framework to enhance for multi-modal representation learning from molecular structures and biomedical text. During pre-training, we design two types of tasks, i.e., multimodal representation alignment and unimodal denoising pretraining, to align the 3D geometric encoder with textual information and, at the same time, preserve its original representation power. Experimental results show the effectiveness of GeomCLIP in various tasks such as molecular property prediction, zero-shot text-molecule retrieval, and 3D molecule captioning. Our code and collected dataset are available at \url{https://github.com/xiaocui3737/GeomCLIP}
- Abstract(参考訳): 分子表現の事前の訓練は、薬物や物質発見に不可欠である。
近年の手法は幾何学的構造からの表現の学習に重点を置いており、3次元位置情報を効果的に捉えている。
しかし、分子の性質やサブストラクチャを詳述する生物医学的テキストの豊富な情報を見落としている。
このことを念頭に,200万対の基底状態の幾何学構造とバイオメディカルテキストのためのデータ収集作業を実施し,PubChem3Dデータセットを作成した。
本データセットに基づいて,分子構造と生物医学的テキストから多モード表現を学習するためのGeomCLIPフレームワークを提案する。
事前学習中、我々は3次元幾何エンコーダをテキスト情報と整列させ、同時に元の表現力を保ちながら、マルチモーダル表現アライメントと非モーダルデノージングプリトレーニングという2種類のタスクを設計する。
実験の結果,GeomCLIPの分子特性予測,ゼロショットテキスト分子検索,および3D分子キャプションなど,様々なタスクにおける有効性が確認された。
我々のコードと収集したデータセットは \url{https://github.com/xiaocui3737/GeomCLIP} で入手できる。
関連論文リスト
- Self Pre-training with Topology- and Spatiality-aware Masked Autoencoders for 3D Medical Image Segmentation [16.753957522664713]
Masked Autoencoders (MAEs) は、自然および医学的な画像解析問題に対する事前訓練型ビジョントランスフォーマー (ViTs) に有効であることが示されている。
既存のMAE事前学習手法は、ViTアーキテクチャで特別に開発されたが、幾何学的形状や空間情報をキャプチャする能力は欠けていた。
本稿では,3次元医用画像セグメンテーションのための自己事前トレーニング(すなわち,同じターゲットデータセット上で事前トレーニングされたモデル)のための既知のMAEの新たな拡張を提案する。
論文 参考訳(メタデータ) (2024-06-15T06:15:17Z) - Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation [42.08917809689811]
SMILES文字列とテキストから表現を共同学習するマルチモーダルな分子表現学習フレームワークAtomasを提案する。
検索タスクでは、Atomasは堅牢な一般化能力を示し、ベースラインを平均30.8%上回っている。
生成タスクでは、Atomasは分子キャプションタスクと分子生成タスクの両方で最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-04-23T12:35:44Z) - Leveraging Biomolecule and Natural Language through Multi-Modal
Learning: A Survey [75.47055414002571]
生物分子モデリングと自然言語(BL)の統合は、人工知能、化学、生物学の交差点において有望な学際領域として現れてきた。
生体分子と自然言語の相互モデリングによって達成された最近の進歩について分析する。
論文 参考訳(メタデータ) (2024-03-03T14:59:47Z) - Integrating curation into scientific publishing to train AI models [1.6982459897303823]
我々は,複数モーダルデータキュレーションを学術出版プロセスに組み込んで,セグメント化された図形パネルやキャプションに注釈を付ける。
SourceData-NLPというデータセットには、620,000以上の注釈付きバイオメディカルエンティティが含まれている。
我々は、名前付き認識、図形キャプションを構成パネルに分割すること、コンテキスト依存型セマンティックタスクを用いて、AIモデルをトレーニングするためのデータセットの有用性を評価する。
論文 参考訳(メタデータ) (2023-10-31T13:22:38Z) - Hierarchical Grammar-Induced Geometry for Data-Efficient Molecular
Property Prediction [37.443491843178315]
学習可能な階層型分子文法を用いたデータ効率特性予測器を提案する。
特性予測は文法誘発幾何上のグラフニューラル拡散を用いて行われる。
極めて限られたデータを持つ場合に有効性を示す、詳細なアブレーション研究とソリューションのさらなる分析を含む。
論文 参考訳(メタデータ) (2023-09-04T19:59:51Z) - Geometry-aware Line Graph Transformer Pre-training for Molecular
Property Prediction [4.598522704308923]
Geometry-Aware line graph transformer (Galformer) は、新しい自己教師型学習フレームワークである。
Galformerは、分類タスクと回帰タスクの両方において、すべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-09-01T14:20:48Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - Automated 3D Pre-Training for Molecular Property Prediction [54.15788181794094]
新たな3D事前学習フレームワーク(3D PGT)を提案する。
3D分子グラフのモデルを事前訓練し、3D構造のない分子グラフに微調整する。
提案した3次元PGTの精度, 効率, 一般化能力を示すために, 2次元分子グラフの大規模実験を行った。
論文 参考訳(メタデータ) (2023-06-13T14:43:13Z) - 3D Molecular Geometry Analysis with 2D Graphs [79.47097907673877]
分子の基底状態3次元ジオメトリは多くの分子解析タスクに必須である。
現代の量子力学的手法は正確な3次元幾何学を計算できるが、計算は禁じられている。
分子グラフから3次元幾何学を予測するための新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-01T19:00:46Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - ATOM3D: Tasks On Molecules in Three Dimensions [91.72138447636769]
近年、深層ニューラルネットワークが注目されている。
本稿では,生物分子のいくつかの重要なクラスにまたがる新しいデータセットと既存のデータセットのコレクションであるATOM3Dを紹介する。
これらのタスクごとに3次元の分子学習ネットワークを開発し、パフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2020-12-07T20:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。